上手使用 Google Gemini 2.5 执行计算机视觉任务
了解如何上手使用 Google Gemini 2.5 进行计算机视觉任务,例如对象检测、图像标注以及用于视觉 AI 解决方案的 OCR。

AI 的进步日新月异,几乎每天都有新的创新登上头条。最近的一个突破是 3 月 26 日发布的 Google DeepMind 最新多模态模型 Gemini 2.5。传统的 大型语言模型 (LLMs) 可以通过学习海量数据来生成类人文本,而 Gemini 2.5 则在此基础上更进一步。
它被设计为一种能够处理图像、音频和视频的“思考模型”。它具备增强的推理和编码能力。有趣的是,它在 计算机视觉任务(如物体检测、图像标注和光学字符识别 (OCR) 等机器对视觉数据进行解析和分析的领域)方面也表现得极其出色。

图 1. 使用 Gemini 2.5 理解图像内容的示例。
在本文中,我们将浏览 Ultralytics 的一个笔记本,它能帮助你上手体验 Gemini 2.5 的计算机视觉功能。我们还将仔细研究 Gemini 2.5 的关键特性,并展示它如何用于构建面向现实世界应用的 计算机视觉解决方案。让我们开始吧!
Link to this sectionGemini 2.5 概述:特性与能力#
Gemini 2.5 模型系列刚发布了首个版本,即 Gemini 2.5 Pro 的实验版本。它旨在通过在给出答案前进行思考来处理复杂问题。它使用了诸如强化学习(模型从反馈中学习)和思维链提示(一种分步骤解决问题的思维方式)等方法。
其关键特性之一是庞大的上下文窗口,可容纳 100 万个 token(大约一百万个单词或部分词),预计未来将扩展至 200 万个。这意味着模型可以同时摄入大量信息,从而得出更详尽、更准确的结果。
除了处理语言外,Gemini 2.5 还可用于以下计算机视觉任务:
-
物体检测:这是识别并定位图像中物体的过程。它可用于监控或自动驾驶汽车等应用场景。
-
图像标注:此任务涉及为图像生成描述性文本。它使视觉内容更易于访问和理解。
-
光学字符识别:该技术将图像中的文本转换为可编辑的机器可读文本。它对于文档数字化和自动化数据录入非常有用。
Link to this section将 Google Gemini 2.5 与其他模型进行基准测试和对比#
如今 AI 领域有多种多模态模型可用,因此了解 Gemini 2.5 Pro 与它们的对比情况非常重要。根据 Google DeepMind 分享的基准测试结果,Gemini 2.5 Pro 在一系列任务中表现出令人印象深刻的性能。
例如,在名为“人类终极考试”(Humanity’s Last Exam) 的测试中(该测试模拟了涵盖多门学科的挑战性考试,旨在考察高级推理能力和通用知识),Gemini 2.5 Pro 的得分为 18.8% 左右,优于得分约 14% 的 OpenAI o3-mini 等模型。

图 2. Gemini 2.5 Pro 的基准测试性能概览。
它在数学和编码挑战方面也表现出色,往往能达到或超过 OpenAI GPT-4.5、Claude 3.7 Sonnet、Grok 3 Beta 和 DeepSeek R1 等模型的性能,证明了其处理复杂任务和大规模数据的能力。
Link to this section上手体验 Gemini 2.5:如何使用 Google Gemini API#
Gemini 2.5 Pro 可在多个平台上使用。你可以在 Google AI Studio 中尝试它,也可以通过 Gemini 应用供 Gemini Advanced 用户访问。在发布公告中,Google DeepMind 还提到该模型很快将在 Vertex AI 上得到支持。这些接入点使开发者能够轻松使用 Gemini 2.5 Pro 来开发现实世界的 AI 应用。
如果你想使用 Google Gemini API 并希望在几分钟内开始使用,而无需复杂的设置,并希望更好地了解其计算机视觉功能,可以查看 Ultralytics 笔记本,其中展示了使用 Gemini 2.5 Pro 进行物体检测和图像标注等任务。让我们详细浏览一下笔记本里的内容。
Link to this section使用 Google Gemini 2.5 笔记本设置推理#
要开始使用 Ultralytics 笔记本并运用 Google Gemini 2.5,你首先需要通过 Google AI Studio 生成 API 密钥。此密钥允许你访问 Gemini API,从而使用该模型。
拿到 API 密钥后,确保你的环境中安装了必要的库——这些库包括 Ultralytics 和 Google AI 工具包中的包。笔记本中清楚地列出了此步骤,你可以按照说明轻松设置工作区。
配置完成后,你可以输入 API 密钥(如下所示)连接到 Gemini API,这会在你的工作区和模型之间建立链接。之后,你就可以向 Gemini 2.5 发送图像和文本提示了。
从本质上讲,你可以向模型提供一张图像和简单的指令(例如“检测此图像中的物体”或“描述你看到了什么”),它就会返回你需要的结果。这个直接的过程使你能够轻松开始探索 Gemini 2.5 的计算机视觉功能。
Link to this section使用 Google Gemini 2.5 进行物体检测#
笔记本中的一个关键示例是使用 Gemini 2.5 Pro 进行物体检测。在这个例子中,你为模型提供一张图像和一个简单的提示来检测物体。
模型处理图像并返回一组它找到的每个物体的坐标和标签;这些坐标以标准化形式给出。然后,使用 Ultralytics Python 包 中的函数将这些标准化值转换为符合图像实际尺寸的坐标,并在每个物体周围画出清晰的边框,如下所示。

图 3. 使用 Google Gemini 2.5 进行物体检测。
Link to this section使用 Gemini 2.5 进行图像标注#
笔记本中另一个有趣的示例是使用 Gemini 2.5 Pro 进行 图像标注。在这个例子中,你为模型提供一张图像和一个提示,要求它生成一段详细描述图像内容的标注。
模型随后会分析视觉内容并返回一段叙述,通常以多个句子的形式格式化,捕捉图像的内容和背景。此功能对于提高无障碍性、总结视觉信息甚至增强创意叙事都很有用。
Link to this section利用 Google Gemini 模型提高 OCR 准确性#
OCR 是一项利用 Gemini 2.5 Pro 读取图像中文本能力的计算机视觉任务。在笔记本中,你可以为模型提供一张包含文本的图像以及提取文本的提示。模型会处理图像并返回检测到的文本以及文本所在的位置坐标,如下所示。
然后使用 Ultralytics Python 包中的函数将这些标准化坐标转换为图像的实际尺寸,并在文本区域周围画出 边框。这种带注释的输出可以清晰地显示文本所在的位置,这对于数字化文档、自动化数据录入和提高无障碍性非常有用。

图 4. 使用 Google Gemini 2.5 提取图像中的文本数据。
Link to this sectionGoogle Gemini 2.5 的现实世界应用#
现在我们已经了解了 Google Gemini 2.5 Pro 如何用于各种计算机视觉任务,让我们探索一些可以使用这些功能的现实应用。
例如,Gemini 2.5 Pro 的物体检测能力可以帮助自动标注和组织大量图像集,使 数据集 创建或内容管理等任务变得更加快捷。它还可以用于零售和农业等领域的图像分析——例如,检测货架上的产品或识别农场照片中作物的受压迹象。

图 5. Gemini 2.5 Pro 分析植物的健康状况。
与此同时,该模型的图像标注功能可以帮助视障用户理解图像中的内容。例如,如果你有一张繁忙街道的照片,模型可能会生成一段详细描述场景的标注,提及车辆类型、行人活动,甚至根据光线线索判断时间。
此外,Gemini 2.5 的 OCR 功能可用于多种应用。例如,你可以通过扫描页面或收据来数字化打印文档。此功能非常适合自动化数据录入任务、处理表格,甚至读取名片和标牌上的文本。
总的来说,Google Gemini 2.5 Pro 为广泛的实际 AI 应用打开了大门。
Link to this section关键要点#
除了生成和分析文本之外,Google Gemini 2.5 Pro 还可以用于物体检测、图像标注和 OCR 等计算机视觉任务。凭借其巨大的上下文窗口和增强的推理能力,它能够生成在现实场景中表现出色的详细、具有上下文感知的结果。
随着 AI 模型的不断演进,像 Gemini 2.5 Pro 这样的工具正在使解决跨行业复杂问题变得更加容易。随着越来越多的组织寻求能够处理从视觉理解到语言处理等广泛任务的灵活多模态解决方案,我们可能会看到 AI 得到更广泛的采用。
加入 我们的社区,并在我们的 GitHub 仓库 上了解前沿的 AI 项目。在我们的解决方案页面上查看 农业中的视觉 AI 和 制造业中的 AI 的应用。探索 我们的授权许可方案 并立即构建计算机视觉解决方案!






