Yolo Vision Shenzhen
Shenzhen
Junte-se agora

Experimente o Google Gemini 2.5 para tarefas de visão computacional

Abirami Vina

Leitura de 5 minutos

31 de março de 2025

Veja como pode pôr mãos à obra com o Google Gemini 2.5 para tarefas de visão computacional, como deteção de objectos, legendagem de imagens e OCR para soluções de IA de visão.

Os avanços da IA estão a avançar rapidamente, com novas inovações a fazer manchetes quase todos os dias. Um desses avanços recentes é o Gemini 2.5, o mais recente modelo multimodal do Google DeepMind, lançado a 26 de março. Embora os modelos tradicionais de grande linguagem (LLM) possam aprender com grandes quantidades de dados para gerar texto semelhante ao humano, o Gemini 2.5 vai mais além. 

Ele foi projetado como um “modelo de pensamento” que pode processar imagens, áudio e vídeo. Ele tem habilidades aprimoradas de raciocínio e codificação. Curiosamente, ele também tem um desempenho excepcionalmente bom em relação às tarefas de visão computacional, onde as máquinas interpretam e analisam dados visuais, como detecção de objetos, legendagem de imagens e reconhecimento óptico de caracteres (OCR).

__wf_reserved_inherit
Fig 1. Um exemplo de como usar o Gemini 2.5 para entender o conteúdo de uma imagem.

Neste artigo, vamos percorrer um dos notebooks da Ultralyticsque pode ajudá-lo a pôr em prática as capacidades de visão computacional do Gemini 2.5. Também analisaremos mais de perto as principais caraterísticas do Gemini 2.5 e mostraremos como pode ser utilizado para criar soluções de visão por computador para aplicações do mundo real. Vamos começar!

Visão geral do Gemini 2.5: recursos e capacidades

A primeira versão da série de modelos Gemini 2.5 que acaba de ser lançada é uma versão experimental do Gemini 2.5 Pro. Ele foi projetado para lidar com problemas complexos, ponderando suas respostas antes de dá-las. Ele usa métodos como aprendizado por reforço (onde o modelo aprende com o feedback) e _chain-of-thought prompting_ (uma abordagem passo a passo para resolver problemas).

Um de seus principais recursos é sua enorme janela de contexto, que pode conter 1 milhão de tokens (aproximadamente um milhão de palavras ou partes de palavras) e espera-se que cresça para 2 milhões. Isso significa que o modelo pode receber muita informação de uma vez, levando a resultados mais detalhados e precisos.

Além de processar linguagem, o Gemini 2.5 pode ser usado para as seguintes tarefas de visão computacional:

  • Detecção de objetos: É o processo de identificar e localizar objetos dentro de uma imagem. Pode ser usado em aplicações como vigilância ou carros autônomos.
  • Legenda de imagens: Esta tarefa envolve gerar um texto descritivo para uma imagem. Torna o conteúdo visual mais acessível e fácil de entender.
  • Reconhecimento óptico de caracteres: Esta tecnologia converte texto encontrado em imagens em texto editável e legível por máquina. É útil para digitalizar documentos e automatizar a entrada de dados.

Avaliação comparativa e comparação Google Gemini 2.5 com outros modelos

Atualmente, existem vários modelos multimodais disponíveis no espaço da IA, pelo que é importante compreender como o Gemini 2.5 Pro se compara a eles. Com base nos resultados de benchmarking partilhados pelo DeepMind da Google, o Gemini 2.5 Pro apresenta um desempenho impressionante numa série de tarefas. 

Por exemplo, em um teste chamado Humanity’s Last Exam, que simula um exame desafiador que abrange muitas disciplinas e testa raciocínio avançado e conhecimento geral, o Gemini 2.5 Pro pontua cerca de 18,8%, superando modelos como o3-mini da OpenAI, que pontua cerca de 14%. 

__wf_reserved_inherit
Fig 2. Uma visão geral do desempenho de _benchmark_ do Gemini 2.5 Pro.

Ele também tem um desempenho muito bom em desafios de matemática e codificação, muitas vezes igualando ou excedendo o desempenho de modelos como OpenAI GPT-4.5, Claude 3.7 Sonnet, Grok 3 Beta e DeepSeek R1, demonstrando sua capacidade de lidar com tarefas complexas e processar grandes quantidades de dados.

Introdução ao Gemini 2.5: Como utilizar a API Google Gemini

O Gemini 2.5 Pro está disponível em várias plataformas. Pode fazer experiências com ele no Google AI Studio e aceder-lhe através da aplicação Gemini para utilizadores Gemini Advanced. No seu anúncio de lançamento, Google DeepMind também mencionou que o modelo será suportado no Vertex AI em breve. Estes pontos de acesso facilitam aos programadores a utilização do Gemini 2.5 Pro para aplicações de IA do mundo real. 

No entanto, se pretender utilizar a API Google Gemini e começar a utilizá-la em apenas alguns minutos, sem configurações complicadas, e se pretender compreender melhor as suas capacidades de visão por computador, pode consultar o cadernoUltralytics que apresenta tarefas como a deteção de objectos e a legendagem de imagens utilizando o Gemini 2.5 Pro. Vamos ver em pormenor o que pode esperar do notebook.

Configuração de inferências com o bloco de notas Google Gemini 2.5

Para começar a utilizar o bloco de notas Ultralytics e utilizar Google Gemini 2.5, primeiro é necessário gerar uma chave de API através do Google AI Studio. Esta chave dá-lhe acesso à API do Gemini para que possa utilizar o modelo.

Assim que tiver a sua chave API, certifique-se de que o seu ambiente tem as bibliotecas necessárias instaladas - estas incluem pacotes do Ultralytics e o kit de ferramentas de IA do Google. Este passo está claramente descrito no bloco de notas, pelo que pode facilmente seguir as instruções para configurar o seu espaço de trabalho.

Com tudo configurado, você pode se conectar à API do Gemini inserindo sua chave de API (como mostrado abaixo), o que cria um link entre seu espaço de trabalho e o modelo. Depois disso, você estará pronto para enviar imagens e _prompts_ de texto para o Gemini 2.5.

Essencialmente, pode fornecer uma imagem e uma instrução simples (como "detect objectos nesta imagem" ou "descrever o que vê") ao modelo, e este devolve os resultados de que necessita. Este processo simples facilita o início da exploração das capacidades de visão computacional do Gemini 2.5.

Deteção de objectos com o Google Gemini 2.5

Um dos principais exemplos do caderno é a deteção de objectos utilizando o Gemini 2.5 Pro. Neste exemplo, é fornecida ao modelo uma imagem e um comando simples para detect objectos. 

O modelo processa a imagem e devolve um conjunto de coordenadas e etiquetas para cada objeto que encontra; estas coordenadas são dadas de forma normalizada. As funções do pacoteUltralytics Python são depois utilizadas para converter estes valores normalizados de modo a corresponderem às dimensões reais da imagem e desenharem caixas delimitadoras claras à volta de cada objeto, como se mostra abaixo.

__wf_reserved_inherit
Fig. 3. Utilização do Google Gemini 2.5 para deteção de objectos.

Legenda de imagens usando o Gemini 2.5

Outro exemplo interessante no notebook é a legendagem de imagens usando o Gemini 2.5 Pro. Neste exemplo, você fornece ao modelo uma imagem e um prompt solicitando que ele gere uma legenda detalhada que descreva o que está na imagem. 

O modelo então analisa o conteúdo visual e retorna uma narrativa, frequentemente formatada como várias frases, que captura tanto o conteúdo quanto o contexto da imagem. Este recurso é útil para melhorar a acessibilidade, resumir informações visuais e até mesmo aprimorar a narrativa criativa.

Melhorar a precisão do OCR com os modelos Google Gemini

Uma tarefa de visão computacional que utiliza a capacidade do Gemini 2.5 Pro de ler texto em imagens é o OCR. No notebook, você pode fornecer ao modelo uma imagem contendo texto junto com um prompt para extrair esse texto. O modelo processa a imagem e retorna tanto o texto detetado quanto as coordenadas onde o texto está localizado, conforme mostrado abaixo.

As funções do pacote Ultralytics Python são depois utilizadas para converter estas coordenadas normalizadas nas dimensões reais da imagem e desenhar caixas delimitadoras à volta das regiões de texto. Esta saída anotada torna clara a localização do texto, o que é útil para digitalizar documentos, automatizar a introdução de dados e melhorar a acessibilidade.

__wf_reserved_inherit
Fig. 4. Extração de dados textuais numa imagem utilizando Google Gemini 2.5.

Aplicações do mundo real do Google Gemini 2.5

Agora que já explicámos como Google Gemini 2.5 Pro pode ser utilizado para várias tarefas de visão computacional, vamos explorar algumas aplicações do mundo real em que estas capacidades podem ser utilizadas.

A capacidade de deteção de objetos do Gemini 2.5 Pro, por exemplo, pode ajudar a rotular e organizar automaticamente grandes conjuntos de imagens, tornando tarefas como a criação de datasets ou a gestão de conteúdo muito mais rápidas. Ele também pode ser usado para analisar imagens em áreas como o varejo e a agricultura - por exemplo, detetando produtos em prateleiras ou identificando sinais de stress em plantações em fotos de fazendas.

__wf_reserved_inherit
Fig 5. Gemini 2.5 Pro analisando a saúde de uma planta.

Enquanto isso, o recurso de legendagem de imagens do modelo pode ajudar usuários com deficiência visual a entender o que está em uma imagem. Por exemplo, se você tiver uma foto de uma rua movimentada, o modelo pode produzir uma legenda que descreve a cena em detalhes, mencionando os tipos de veículos, a atividade de pedestres e até mesmo a hora do dia com base em pistas de iluminação. 

Além disso, a funcionalidade OCR do Gemini 2.5 pode ser usada em diversas aplicações. Por exemplo, você pode digitalizar documentos impressos digitalizando páginas ou recibos. Essa capacidade é ideal para automatizar tarefas de entrada de dados, processar formulários ou até mesmo ler textos de cartões de visita e sinalização. 

De um modo geral, Google Gemini 2.5 Pro abre as portas a uma vasta gama de aplicações práticas de IA.

Principais conclusões

Para além de gerar e analisar texto, Google Gemini 2.5 Pro pode ser utilizado para tarefas de visão computacional, como deteção de objectos, legendagem de imagens e OCR. Com a sua enorme janela de contexto e capacidades de raciocínio melhoradas, produz resultados detalhados e conscientes do contexto que funcionam bem em cenários do mundo real. 

À medida que os modelos de IA continuam a evoluir, ferramentas como o Gemini 2.5 Pro estão facilitando a resolução de problemas complexos em vários setores. É provável que vejamos uma adoção ainda maior de IA à medida que mais organizações procuram soluções flexíveis e multimodais que possam lidar com uma ampla gama de tarefas, desde a compreensão visual até o processamento de linguagem.

Faça parte da nossa comunidade e aprenda sobre projetos de IA de ponta em nosso repositório GitHub. Veja as aplicações da Visão de IA na agricultura e o papel da IA na manufatura em nossas páginas de soluções. Explore nossos planos de licenciamento e construa soluções de visão computacional hoje!

Vamos construir o futuro
da IA juntos!

Comece sua jornada com o futuro do aprendizado de máquina

Comece gratuitamente