Ao clicar em "Aceitar todos os cookies", concorda com o armazenamento de cookies no seu dispositivo para melhorar a navegação no site, analisar a utilização do site e ajudar nos nossos esforços de marketing. Mais informações
Definições de cookies
Ao clicar em "Aceitar todos os cookies", concorda com o armazenamento de cookies no seu dispositivo para melhorar a navegação no site, analisar a utilização do site e ajudar nos nossos esforços de marketing. Mais informações
Veja como pode pôr mãos à obra com o Google Gemini 2.5 para tarefas de visão computacional, como deteção de objectos, legendagem de imagens e OCR para soluções de IA de visão.
Os avanços da IA estão a avançar rapidamente, com novas inovações a fazer manchetes quase todos os dias. Um desses avanços recentes é o Gemini 2.5, o mais recente modelo multimodal do Google DeepMind, lançado a 26 de março. Enquanto os modelos tradicionais de grande linguagem (LLM) podem aprender com grandes quantidades de dados para gerar texto semelhante ao humano, o Gemini 2.5 vai mais além.
Foi concebido como um "modelo de pensamento" que pode processar imagens, áudio e vídeo. Tem capacidades de raciocínio e de codificação melhoradas. Curiosamente, também tem um desempenho excecional no que diz respeito a tarefas de visão por computador, em que as máquinas interpretam e analisam dados visuais, como a deteção de objectos, a legendagem de imagens e o reconhecimento ótico de caracteres (OCR).
Fig. 1. Um exemplo de utilização do Gemini 2.5 para compreender o conteúdo de uma imagem.
Neste artigo, vamos percorrer um dos notebooks da Ultralytics que pode ajudá-lo a pôr em prática as capacidades de visão computacional do Gemini 2.5. Também analisaremos mais de perto as principais caraterísticas do Gemini 2.5 e mostraremos como pode ser utilizado para criar soluções de visão por computador para aplicações do mundo real. Vamos começar!
Visão geral do Gemini 2.5: caraterísticas e capacidades
A primeira versão da série de modelos Gemini 2.5 que acaba de ser lançada é uma versão experimental do Gemini 2.5 Pro. Foi concebido para lidar com problemas complexos, reflectindo sobre as suas respostas antes de dar uma resposta. Utiliza métodos como a aprendizagem por reforço (em que o modelo aprende com o feedback) e o raciocínio em cadeia (uma abordagem passo a passo para resolver problemas).
Uma das suas principais caraterísticas é a sua enorme janela de contexto, que pode conter 1 milhão de tokens (cerca de um milhão de palavras ou partes de palavras) e deverá aumentar para 2 milhões. Isto significa que o modelo pode receber muita informação de uma só vez, conduzindo a resultados mais pormenorizados e precisos.
Para além da linguagem de processamento, o Gemini 2.5 pode ser utilizado para as seguintes tarefas de visão por computador:
Deteção de objectos: É o processo de identificação e localização de objectos numa imagem. Pode ser utilizado em aplicações como a vigilância ou carros autónomos.
Legenda de imagens: Esta tarefa consiste em gerar um texto descritivo para uma imagem. Torna o conteúdo visual mais acessível e mais fácil de compreender.
Reconhecimento ótico de caracteres: Esta tecnologia converte texto encontrado em imagens em texto editável e legível por máquina. É útil para digitalizar documentos e automatizar a introdução de dados.
Avaliação comparativa e comparação do Google Gemini 2.5 com outros modelos
Atualmente, existem vários modelos multimodais disponíveis no espaço da IA, pelo que é importante compreender como o Gemini 2.5 Pro se compara a eles. Com base nos resultados de benchmarking partilhados pelo DeepMind da Google, o Gemini 2.5 Pro apresenta um desempenho impressionante numa série de tarefas.
Por exemplo, num teste chamado Humanity's Last Exam, que simula um exame exigente que abrange muitas disciplinas e testa o raciocínio avançado e os conhecimentos gerais, o Gemini 2.5 Pro tem uma pontuação de cerca de 18,8%, superando modelos como o o3-mini da OpenAI, que tem uma pontuação de cerca de 14%.
Figura 2. Uma visão geral do desempenho do Gemini 2.5 Pro nos testes de referência.
Também tem um desempenho muito bom em desafios de matemática e codificação, muitas vezes igualando ou excedendo o desempenho de modelos como OpenAI GPT-4.5, Claude 3.7 Sonnet, Grok 3 Beta e DeepSeek R1, demonstrando sua capacidade de lidar com tarefas complexas e processar grandes quantidades de dados.
Introdução ao Gemini 2.5: Como utilizar a API do Google Gemini
O Gemini 2.5 Pro está disponível em várias plataformas. Pode fazer experiências com ele no Google AI Studio e aceder-lhe através da aplicação Gemini para utilizadores Gemini Advanced. No anúncio de lançamento, o Google DeepMind também mencionou que o modelo será suportado no Vertex AI em breve. Estes pontos de acesso facilitam aos programadores a utilização do Gemini 2.5 Pro em aplicações de IA do mundo real.
No entanto, se pretender utilizar a API do Google Gemini e começar a utilizá-la em apenas alguns minutos, sem configurações complicadas, e se pretender compreender melhor as suas capacidades de visão por computador, pode consultar o caderno Ultralytics que apresenta tarefas como a deteção de objectos e a legendagem de imagens utilizando o Gemini 2.5 Pro. Vamos ver em pormenor o que pode esperar do notebook.
Configuração de inferências com o bloco de notas do Google Gemini 2.5
Para começar a utilizar o bloco de notas do Ultralytics e utilizar o Google Gemini 2.5, primeiro é necessário gerar uma chave de API através do Google AI Studio. Esta chave dá-lhe acesso à API do Gemini para que possa utilizar o modelo.
Assim que tiver a sua chave de API, certifique-se de que o seu ambiente tem as bibliotecas necessárias instaladas - estas incluem pacotes do Ultralytics e do kit de ferramentas de IA da Google. Este passo está claramente descrito no bloco de notas, pelo que pode facilmente seguir as instruções para configurar o seu espaço de trabalho.
Com tudo configurado, pode ligar-se à API do Gemini introduzindo a sua chave de API (como mostrado abaixo), que cria uma ligação entre o seu espaço de trabalho e o modelo. Depois disso, estará pronto para enviar imagens e prompts de texto para o Gemini 2.5.
Essencialmente, pode fornecer uma imagem e uma instrução simples (como "detetar objectos nesta imagem" ou "descrever o que vê") ao modelo, e este devolve os resultados de que necessita. Este processo simples facilita o início da exploração das capacidades de visão computacional do Gemini 2.5.
Deteção de objectos com o Google Gemini 2.5
Um dos principais exemplos do caderno é a deteção de objectos utilizando o Gemini 2.5 Pro. Neste exemplo, é fornecida ao modelo uma imagem e um comando simples para detetar objectos.
O modelo processa a imagem e devolve um conjunto de coordenadas e etiquetas para cada objeto que encontra; estas coordenadas são dadas de forma normalizada. As funções do pacote Ultralytics Python são depois utilizadas para converter estes valores normalizados de modo a corresponderem às dimensões reais da imagem e desenharem caixas delimitadoras claras à volta de cada objeto, como se mostra abaixo.
Fig. 3. Utilização do Google Gemini 2.5 para deteção de objectos.
Legendagem de imagens utilizando o Gemini 2.5
Outro exemplo interessante no bloco de notas é a legendagem de imagens utilizando o Gemini 2.5 Pro. Neste exemplo, é fornecida ao modelo uma imagem e um pedido para gerar uma legenda detalhada que descreva o que está na imagem.
O modelo analisa então o conteúdo visual e devolve uma narrativa, muitas vezes formatada como várias frases, que capta o conteúdo e o contexto da imagem. Esta funcionalidade é útil para melhorar a acessibilidade, resumir informações visuais e até melhorar a narração criativa de histórias.
Melhorar a precisão do OCR com os modelos Google Gemini
Uma tarefa de visão computacional que usa a capacidade do Gemini 2.5 Pro de ler texto em imagens é o OCR. No bloco de notas, é possível fornecer ao modelo uma imagem contendo texto, juntamente com uma solicitação para extrair esse texto. O modelo processa a imagem e retorna o texto detectado e as coordenadas onde o texto está localizado, como mostrado abaixo.
As funções do pacote Ultralytics Python são depois utilizadas para converter estas coordenadas normalizadas nas dimensões reais da imagem e desenhar caixas delimitadoras à volta das regiões de texto. Esta saída anotada torna clara a localização do texto, o que é útil para digitalizar documentos, automatizar a introdução de dados e melhorar a acessibilidade.
Fig. 4. Extração de dados textuais numa imagem utilizando o Google Gemini 2.5.
Aplicações do mundo real do Google Gemini 2.5
Agora que já explicámos como o Google Gemini 2.5 Pro pode ser utilizado para várias tarefas de visão computacional, vamos explorar algumas aplicações do mundo real em que estas capacidades podem ser utilizadas.
A capacidade de deteção de objectos do Gemini 2.5 Pro, por exemplo, pode ajudar a rotular e organizar automaticamente grandes conjuntos de imagens, tornando tarefas como a criação de conjuntos de dados ou a gestão de conteúdos muito mais rápidas. Também pode ser utilizado para analisar imagens em áreas como o retalho e a agricultura - por exemplo, para detetar produtos nas prateleiras ou identificar sinais de stress nas colheitas em fotografias de quintas.
Fig. 5. Gemini 2.5 Pro analisando o estado de saúde de uma planta.
Entretanto, a funcionalidade de legendagem de imagens do modelo pode ajudar os utilizadores com deficiência visual a compreender o que está numa imagem. Por exemplo, se tivermos uma fotografia de uma rua movimentada, o modelo pode produzir uma legenda que descreva a cena em pormenor, mencionando os tipos de veículos, a atividade dos peões e até a hora do dia com base em sinais de iluminação.
Para além disso, a funcionalidade OCR do Gemini 2.5 pode ser utilizada numa variedade de aplicações. Por exemplo, é possível digitalizar documentos impressos, digitalizando páginas ou recibos. Essa capacidade é ideal para automatizar tarefas de entrada de dados, processar formulários ou até mesmo ler texto de cartões de visita e sinalização.
De um modo geral, o Google Gemini 2.5 Pro abre as portas a uma vasta gama de aplicações práticas de IA.
Principais conclusões
Para além de gerar e analisar texto, o Google Gemini 2.5 Pro pode ser utilizado para tarefas de visão computacional, como deteção de objectos, legendagem de imagens e OCR. Com a sua enorme janela de contexto e capacidades de raciocínio melhoradas, produz resultados detalhados e conscientes do contexto que funcionam bem em cenários do mundo real.
À medida que os modelos de IA continuam a evoluir, ferramentas como o Gemini 2.5 Pro estão a facilitar a resolução de problemas complexos em todos os sectores. É provável que vejamos uma adoção ainda mais ampla da IA à medida que mais organizações procuram soluções flexíveis e multimodais que possam lidar com uma vasta gama de tarefas, desde a compreensão visual ao processamento de linguagem.