了解如何使用 Google Gemini 2.5 实际操作计算机视觉任务,例如物体检测、图像描述和 OCR,以实现视觉 AI 解决方案。

了解如何使用 Google Gemini 2.5 实际操作计算机视觉任务,例如物体检测、图像描述和 OCR,以实现视觉 AI 解决方案。
AI的进步日新月异,几乎每天都有新的创新成为头条新闻。最近的一项突破是Gemini 2.5,这是Google DeepMind于3月26日推出的最新多模态模型。虽然传统的大型语言模型(LLM)可以从海量数据中学习以生成类似人类的文本,但Gemini 2.5更进一步。
它被设计为一个可以处理图像、音频和视频的“思考模型”。它具有增强的推理和编码技能。有趣的是,它在计算机视觉任务方面也表现出色,机器可以在这些任务中解释和分析视觉数据,例如目标检测、图像描述和光学字符识别 (OCR)。
在本文中,我们将介绍 Ultralytics 的一个 Notebook,它可以帮助您亲身体验 Gemini 2.5 的计算机视觉功能。我们还将仔细研究 Gemini 2.5 的主要特性,并展示如何使用它为实际应用构建 计算机视觉解决方案。让我们开始吧!
Gemini 2.5 模型系列中刚刚发布的第一个版本是 Gemini 2.5 Pro 的实验版本。它旨在通过在给出答案之前仔细思考其响应来处理复杂的问题。它使用诸如强化学习(模型从反馈中学习)和思维链提示(解决问题的逐步方法)之类的方法。
它的主要功能之一是其巨大的上下文窗口,可以容纳 100 万个 tokens(大约 100 万个单词或单词部分),预计将增长到 200 万个。这意味着该模型可以一次性接收大量信息,从而产生更详细和准确的结果。
除了处理语言之外,Gemini 2.5 还可以用于以下计算机视觉任务:
当今的 AI 领域有几种多模态模型可用,因此了解 Gemini 2.5 Pro 与它们的比较非常重要。根据 Google 的 DeepMind 分享的基准测试结果,Gemini 2.5 Pro 在一系列任务中表现出令人印象深刻的性能。
例如,在一项名为“人类的最后一次考试”的测试中,该测试模拟了一项涵盖许多科目并测试高级推理和常识的具有挑战性的考试,Gemini 2.5 Pro的得分约为18.8%,优于OpenAI的o3-mini等模型,后者的得分约为14%。
它在数学和编码挑战方面也表现出色,通常与 OpenAI GPT-4.5、Claude 3.7 Sonnet、Grok 3 Beta 和 DeepSeek R1 等模型的性能相匹配或超过,这表明它能够处理复杂的任务并处理大量数据。
Gemini 2.5 Pro 可在多个平台上使用。您可以在 Google AI Studio 中进行实验,并通过 Gemini 应用为 Gemini Advanced 用户访问它。在其发布公告中,Google DeepMind 还提到该模型很快将在 Vertex AI 上得到支持。这些接入点使开发人员可以轻松地将 Gemini 2.5 Pro 用于实际的 AI 应用。
但是,如果您想使用 Google Gemini API 并在几分钟内开始使用,而无需复杂的设置,并且希望更好地了解其计算机视觉功能,您可以查看 Ultralytics notebook,其中展示了使用 Gemini 2.5 Pro 进行目标检测和图像字幕等任务。 让我们详细了解一下您可以在 notebook 中获得什么。
要开始使用Ultralytics notebook并使用Google Gemini 2.5,您首先需要通过 Google AI Studio 生成API密钥。此密钥使您可以访问Gemini API,以便您可以使用该模型。
获得 API 密钥后,请确保您的环境已安装必要的库——这些库包括来自 Ultralytics 和 Google 的 AI 工具包中的软件包。此步骤在笔记本中已明确概述,因此您可以轻松按照说明设置您的工作区。
完成所有配置后,您可以通过输入您的API密钥(如下所示)连接到Gemini API,这将在您的工作区和模型之间建立连接。之后,您就可以向Gemini 2.5发送图像和文本提示了。
本质上,您可以向模型提供图像和一个简单的指令(例如“检测此图像中的对象”或“描述你所看到的”),然后它会返回您需要的结果。这种直接的过程使得开始探索 Gemini 2.5 的计算机视觉能力变得容易。
笔记本中的一个关键示例是使用 Gemini 2.5 Pro 进行目标检测。在此示例中,您向模型提供图像和一个简单的提示来检测目标。
模型处理图像并返回它找到的每个对象的坐标和标签;这些坐标以归一化形式给出。 然后使用 Ultralytics Python 包 中的函数将这些归一化值转换为与图像的实际尺寸相匹配,并在每个对象周围绘制清晰的边界框,如下所示。
笔记本中的另一个有趣的例子是使用 Gemini 2.5 Pro 进行 图像描述。在这个例子中,您向模型提供一张图像和一个提示,要求它生成一个详细的描述,描述图像中的内容。
然后,该模型分析视觉内容并返回一个叙述,通常格式化为多个句子,捕捉图像的内容和上下文。 此功能对于提高可访问性、总结视觉信息,甚至增强创意故事讲述非常有用。
使用 Gemini 2.5 Pro 读取图像中的文本能力的计算机视觉任务是 OCR。在 notebook 中,您可以向模型提供包含文本的图像以及提取该文本的提示。该模型处理图像并返回检测到的文本和文本所在的坐标,如下所示。
然后,使用 Ultralytics Python 包中的函数将这些归一化的坐标转换为图像的实际尺寸,并在文本区域周围绘制边界框。这种带注释的输出清楚地表明了文本的位置,这对于数字化文档、自动化数据输入和提高可访问性非常有用。
既然我们已经了解了 Google Gemini 2.5 Pro 如何用于各种计算机视觉任务,接下来让我们探讨一下这些功能在现实世界中的应用。
例如,Gemini 2.5 Pro 的目标检测能力可以帮助自动标记和组织大型图像集,从而使数据集创建或内容管理等任务变得更快。它还可以用于分析零售和农业等领域的图像——例如,检测货架上的产品或识别农场照片中作物压力的迹象。
同时,该模型的图像描述功能可以帮助视力障碍用户理解图像中的内容。例如,如果您有一张繁忙街道的照片,该模型可能会生成一个详细描述场景的标题,提及车辆类型、行人活动,甚至根据光线线索判断一天中的时间。
除此之外,Gemini 2.5的OCR功能可用于各种应用。例如,您可以通过扫描页面或收据来数字化打印文档。此功能非常适合自动化数据输入任务、处理表单,甚至可以读取名片和标牌上的文本。
总的来说,Google Gemini 2.5 Pro 为各种实际的人工智能应用打开了大门。
除了生成和分析文本之外,Google Gemini 2.5 Pro 还可以用于计算机视觉任务,例如目标检测、图像字幕和 OCR。凭借其巨大的上下文窗口和增强的推理能力,它可以生成详细的、上下文感知的,在实际场景中表现良好的结果。
随着人工智能模型的不断发展,像Gemini 2.5 Pro这样的工具使得跨行业解决复杂问题变得更加容易。随着越来越多的组织寻求能够处理从视觉理解到语言处理等各种任务的灵活、多模态解决方案,我们可能会看到人工智能得到更广泛的应用。
加入我们的社区,并在我们的GitHub 仓库上了解前沿的人工智能项目。在我们的解决方案页面上,了解视觉人工智能在农业领域的应用以及人工智能在制造业领域的作用。探索我们的许可计划,立即构建计算机视觉解决方案!