亲身体验用于计算机视觉任务的 Google 双子座 2.5

阿比拉米-维纳

5 分钟阅读

2025年3月31日

了解如何使用 Google Gemini 2.5 完成计算机视觉任务,如物体检测、图像字幕和视觉人工智能解决方案的 OCR。

人工智能的发展日新月异,几乎每天都有新的创新成为头条新闻。谷歌 DeepMind 于 3 月 26 日推出的最新多模态模型 Gemini 2.5 就是最近的一项突破。传统的大型语言模型(LLM)可以从海量数据中学习,生成类似人类的文本,而 Gemini 2.5 则更进一步。 

它被设计成一种 "思维模型",可以处理图像、音频和视频。它具有更强的推理和编码能力。有趣的是,它在计算机视觉任务(机器解释和分析视觉数据)方面也表现出色,例如物体检测、图像字幕和光学字符识别(OCR)。

__wf_保留继承
图 1.使用 Gemini 2.5 理解图像内容的示例。

在本文中,我们将介绍 Ultralytics 的一个笔记本,帮助您亲身体验 Gemini 2.5 的计算机视觉功能。我们还将详细介绍 Gemini 2.5 的主要功能,并展示如何利用它为实际应用构建计算机视觉解决方案。让我们开始吧

双子座 2.5 概述:特点和功能

刚刚发布的双子座 2.5 模型系列的第一个版本是双子座 2.5 Pro 的实验版。它的设计目的是在给出答案之前,通过思考其反应来处理复杂的问题。它采用了强化学习(模型从反馈中学习)和思维链提示(逐步解决问题的方法)等方法。

它的主要特点之一是其巨大的上下文窗口,可容纳 100 万个词块(大约 100 万个单词或单词部分),并有望增加到 200 万个。这意味着该模型可以一次性接收大量信息,从而获得更详细、更准确的结果。

除了处理语言之外,Gemini 2.5 还可用于完成以下计算机视觉任务:

  • 对象检测:它是在图像中识别和定位物体的过程。它可用于监控或自动驾驶汽车等应用中。
  • 图像标题:这项任务包括为图像生成描述性文本。它使视觉内容更易于访问和理解。
  • 光学字符识别:该技术可将图像中的文本转换为可编辑的机器可读文本。它适用于文件数字化和数据录入自动化。

谷歌双子星 2.5 与其他型号的基准测试和比较

目前,人工智能领域有多种多模态模型可供选择,因此了解 Gemini 2.5 Pro 与这些模型的比较非常重要。根据谷歌 DeepMind 分享的基准测试结果,Gemini 2.5 Pro 在一系列任务中都表现出令人印象深刻的性能。 

例如,在一项名为 "人类最后的考试 "的测试中,Gemini 2.5 Pro 的得分率约为 18.8%,超过了 OpenAI 的 o3-mini 等模型,后者的得分率约为 14%。 

__wf_保留继承
图 2.Gemini 2.5 Pro 的基准性能概览。

它在数学和编码挑战中的表现也非常出色,经常与 OpenAI GPT-4.5、Claude 3.7 Sonnet、Grok 3 Beta 和 DeepSeek R1 等模型不相上下,甚至超过它们,这表明它有能力处理复杂任务和大量数据。

亲身体验 Gemini 2.5:如何使用 Google Gemini API

双子座 2.5 Pro 可在多个平台上使用。你可以在 Google AI Studio 中进行实验,也可以通过 Gemini 高级用户的 Gemini 应用程序访问它。谷歌 DeepMind 在发布公告中还提到,Vertex AI 将很快支持该模型。这些接入点让开发人员可以轻松地将 Gemini 2.5 Pro 用于真实世界的人工智能应用。 

不过,如果您想使用 Google Gemini API 并在几分钟内上手,而无需进行复杂的设置,并且希望更好地了解其计算机视觉功能,您可以查看Ultralytics 笔记本,其中展示了使用 Gemini 2.5 Pro 进行物体检测和图像字幕制作等任务。让我们来详细了解一下笔记本中的内容。

使用 Google 双子座 2.5 笔记本设置推理功能

要开始使用 Ultralytics 笔记本和 Google Gemini 2.5,首先需要通过Google AI Studio 生成一个 API 密钥。有了这个密钥,您就可以访问 Gemini API,从而使用该模型。

获得 API 密钥后,请确保您的环境已安装必要的库,其中包括Ultralytics和谷歌人工智能工具包中的软件包。笔记本中清楚地概述了这一步骤,因此您可以轻松地按照说明设置工作区。

一切配置完成后,您就可以通过输入 API 密钥(如下图所示)连接到 Gemini API,从而在工作区和模型之间建立链接。之后,您就可以向 Gemini 2.5 发送图像和文本提示了。

基本上,您可以向模型提供一幅图像和一条简单的指令(如 "检测图像中的物体 "或 "描述您所看到的"),然后它就会返回您所需要的结果。这个简单明了的过程让您可以轻松开始探索 Gemini 2.5 的计算机视觉功能。

使用 Google 双子座 2.5 检测物体

笔记本中的一个重要示例是使用 Gemini 2.5 Pro 进行物体检测。在这个示例中,您为模型提供了一幅图像和一个简单的检测物体提示。 

模型会处理图像,并为找到的每个对象返回一组坐标和标签;这些坐标以规范化形式给出。然后,Ultralytics Python 软件包中的函数将这些归一化值转换为与图像实际尺寸相匹配的值,并在每个物体周围绘制清晰的边界框,如下图所示。

__wf_保留继承
图 3.使用 Google Gemini 2.5 检测物体。

使用双子座 2.5 添加图像标题

笔记本中另一个有趣的例子是使用 Gemini 2.5 Pro 为图像添加标题。在这个示例中,您为模型提供了一张图片和一个提示,要求它生成一个详细的标题来描述图片中的内容。 

然后,模型会对视觉内容进行分析,并返回一个叙述,通常格式为多个句子,以捕捉图像的内容和上下文。这一功能对于提高可访问性、总结视觉信息,甚至增强创造性的故事讲述都非常有用。

利用谷歌双子座模型提高 OCR 精确度

使用 Gemini 2.5 Pro 阅读图像中文本的计算机视觉任务是 OCR。在笔记本中,您可以向模型提供包含文本的图像,并提示提取文本。模型会处理图像并返回检测到的文本和文本所在的坐标,如下图所示。

然后,Ultralytics Python 软件包中的函数将这些归一化坐标转换为图像的实际尺寸,并在文本区域周围绘制边框。这种带注释的输出可以清楚地显示文本的位置,对于文档数字化、数据录入自动化和提高可访问性非常有用。

__wf_保留继承
图 4.使用 Google Gemini 2.5 提取图像中的文本数据。

谷歌双子座 2.5 的实际应用

现在,我们已经了解了 Google Gemini 2.5 Pro 如何用于各种计算机视觉任务,让我们来探索一些可以使用这些功能的实际应用。

例如,Gemini 2.5 Pro 的对象检测功能可以帮助自动标注和组织大型图像,使数据集创建或内容管理等任务更加快捷。它还可用于分析零售和农业等领域的图像,例如,检测货架上的产品或识别农场照片中作物受压的迹象。

__wf_保留继承
图 5.Gemini 2.5 Pro 分析植物的健康状况。

同时,模型的图像标题功能可以帮助视障用户了解图像中的内容。例如,如果你有一张繁忙街道的照片,模型可能会生成一个详细描述场景的标题,提到车辆的类型、行人的活动,甚至根据光照提示说明一天中的时间。 

除此之外,Gemini 2.5 的 OCR 功能还可用于多种应用。例如,您可以通过扫描页面或收据将打印文档数字化。这种功能非常适合自动执行数据录入任务、处理表格,甚至读取名片和标牌上的文字。 

总之,Google Gemini 2.5 Pro 为广泛的人工智能实际应用打开了大门。

主要收获

除了生成和分析文本,Google Gemini 2.5 Pro 还可用于对象检测、图像字幕和 OCR 等计算机视觉任务。凭借其巨大的上下文窗口和增强的推理能力,它可以生成详细的、上下文感知的结果,在实际应用中效果显著。 

随着人工智能模型的不断发展,像 Gemini 2.5 Pro 这样的工具使解决各行各业的复杂问题变得更加容易。随着越来越多的企业开始寻求能够处理从视觉理解到语言处理等各种任务的灵活、多模式解决方案,我们很可能会看到人工智能得到更广泛的应用。

加入我们的社区,了解我们GitHub 存储库中的前沿人工智能项目。在我们的解决方案页面上查看视觉人工智能在农业中的应用以及人工智能在制造业中的作用。了解我们的许可计划,立即构建计算机视觉解决方案!

让我们共同打造人工智能的未来

开始您的未来机器学习之旅

免费开始
链接复制到剪贴板