了解如何使用Google Gemini 2.5 完成计算机视觉任务,如物体检测、图像字幕和视觉人工智能解决方案的 OCR。
了解如何使用Google Gemini 2.5 完成计算机视觉任务,如物体检测、图像字幕和视觉人工智能解决方案的 OCR。
人工智能的发展日新月异,几乎每天都有新的创新成为头条新闻。Google DeepMind 于 3 月 26 日推出的最新多模态模型 Gemini 2.5 就是最近的一项突破。传统的大型语言模型(LLM)可以从海量数据中学习,生成类似人类的文本,而 Gemini 2.5 则更进一步。
它被设计为一个可以处理图像、音频和视频的“思考模型”。它具有增强的推理和编码技能。有趣的是,它在计算机视觉任务方面也表现出色,机器可以在这些任务中解释和分析视觉数据,例如目标检测、图像描述和光学字符识别 (OCR)。

在本文中,我们将介绍Ultralytics的一个笔记本,帮助您亲身体验 Gemini 2.5 的计算机视觉功能。我们还将详细介绍 Gemini 2.5 的主要功能,并展示如何利用它为实际应用构建计算机视觉解决方案。让我们开始吧
Gemini 2.5 模型系列中刚刚发布的第一个版本是 Gemini 2.5 Pro 的实验版本。它旨在通过在给出答案之前仔细思考其响应来处理复杂的问题。它使用诸如强化学习(模型从反馈中学习)和思维链提示(解决问题的逐步方法)之类的方法。
它的主要功能之一是其巨大的上下文窗口,可以容纳 100 万个 tokens(大约 100 万个单词或单词部分),预计将增长到 200 万个。这意味着该模型可以一次性接收大量信息,从而产生更详细和准确的结果。
除了处理语言之外,Gemini 2.5 还可以用于以下计算机视觉任务:
目前,人工智能领域有多种多模态模型可供选择,因此了解 Gemini 2.5 Pro 与这些模型的比较非常重要。根据Google DeepMind 分享的基准测试结果,Gemini 2.5 Pro 在一系列任务中都表现出令人印象深刻的性能。
例如,在一项名为“人类的最后一次考试”的测试中,该测试模拟了一项涵盖许多科目并测试高级推理和常识的具有挑战性的考试,Gemini 2.5 Pro的得分约为18.8%,优于OpenAI的o3-mini等模型,后者的得分约为14%。

它在数学和编码挑战方面也表现出色,通常与 OpenAI GPT-4.5、Claude 3.7 Sonnet、Grok 3 Beta 和 DeepSeek R1 等模型的性能相匹配或超过,这表明它能够处理复杂的任务并处理大量数据。
双子座 2.5 Pro 可在多个平台上使用。你可以在Google AI Studio 中进行实验,也可以通过 Gemini 高级用户的 Gemini 应用程序访问它。Google DeepMind 在发布公告中还提到,Vertex AI 将很快支持该模型。这些接入点让开发人员可以轻松地将 Gemini 2.5 Pro 用于真实世界的人工智能应用。
不过,如果您想使用Google Gemini API 并在几分钟内上手,而无需进行复杂的设置,并且希望更好地了解其计算机视觉功能,您可以查看Ultralytics 笔记本,其中展示了使用 Gemini 2.5 Pro 进行物体检测和图像字幕制作等任务。让我们来详细了解一下笔记本中的内容。
要开始使用Ultralytics 笔记本和Google Gemini 2.5,首先需要通过Google AI Studio 生成一个 API 密钥。有了这个密钥,您就可以访问 Gemini API,从而使用该模型。
获得 API 密钥后,请确保您的环境已安装必要的库,其中包括以下软件包 Ultralytics和Google人工智能工具包中的软件包。笔记本中清楚地概述了这一步骤,因此您可以轻松地按照说明设置工作区。
完成所有配置后,您可以通过输入您的API密钥(如下所示)连接到Gemini API,这将在您的工作区和模型之间建立连接。之后,您就可以向Gemini 2.5发送图像和文本提示了。
基本上,您可以向模型提供一幅图像和一条简单的指令(如 "detect 图像中的物体 "或 "描述您所看到的"),然后它就会返回您所需要的结果。这个简单明了的过程让您可以轻松开始探索 Gemini 2.5 的计算机视觉功能。
笔记本中的一个重要示例是使用 Gemini 2.5 Pro 进行物体检测。在这个示例中,您为模型提供了一幅图像和一个简单的detect 物体提示。
模型会处理图像,并为找到的每个对象返回一组坐标和标签;这些坐标以规范化形式给出。然后,Ultralytics Python 软件包中的函数将这些归一化值转换为与图像实际尺寸相匹配的值,并在每个物体周围绘制清晰的边界框,如下图所示。

笔记本中的另一个有趣的例子是使用 Gemini 2.5 Pro 进行 图像描述。在这个例子中,您向模型提供一张图像和一个提示,要求它生成一个详细的描述,描述图像中的内容。
然后,该模型分析视觉内容并返回一个叙述,通常格式化为多个句子,捕捉图像的内容和上下文。 此功能对于提高可访问性、总结视觉信息,甚至增强创意故事讲述非常有用。
使用 Gemini 2.5 Pro 读取图像中的文本能力的计算机视觉任务是 OCR。在 notebook 中,您可以向模型提供包含文本的图像以及提取该文本的提示。该模型处理图像并返回检测到的文本和文本所在的坐标,如下所示。
然后,Ultralytics Python 软件包中的函数将这些归一化坐标转换为图像的实际尺寸,并在文本区域周围绘制边框。这种带注释的输出可以清楚地显示文本的位置,对于文档数字化、数据录入自动化和提高可访问性非常有用。

现在,我们已经了解了Google Gemini 2.5 Pro 如何用于各种计算机视觉任务,让我们来探索一些可以使用这些功能的实际应用。
例如,Gemini 2.5 Pro 的目标检测能力可以帮助自动标记和组织大型图像集,从而使数据集创建或内容管理等任务变得更快。它还可以用于分析零售和农业等领域的图像——例如,检测货架上的产品或识别农场照片中作物压力的迹象。

同时,该模型的图像描述功能可以帮助视力障碍用户理解图像中的内容。例如,如果您有一张繁忙街道的照片,该模型可能会生成一个详细描述场景的标题,提及车辆类型、行人活动,甚至根据光线线索判断一天中的时间。
除此之外,Gemini 2.5的OCR功能可用于各种应用。例如,您可以通过扫描页面或收据来数字化打印文档。此功能非常适合自动化数据输入任务、处理表单,甚至可以读取名片和标牌上的文本。
总之,Google Gemini 2.5 Pro 为广泛的人工智能实际应用打开了大门。
除了生成和分析文本,Google Gemini 2.5 Pro 还可用于对象检测、图像字幕和 OCR 等计算机视觉任务。凭借其巨大的上下文窗口和增强的推理能力,它可以生成详细的、上下文感知的结果,在实际应用中效果显著。
随着人工智能模型的不断发展,像Gemini 2.5 Pro这样的工具使得跨行业解决复杂问题变得更加容易。随着越来越多的组织寻求能够处理从视觉理解到语言处理等各种任务的灵活、多模态解决方案,我们可能会看到人工智能得到更广泛的应用。
加入我们的社区,并在我们的GitHub 仓库上了解前沿的人工智能项目。在我们的解决方案页面上,了解视觉人工智能在农业领域的应用以及人工智能在制造业领域的作用。探索我们的许可计划,立即构建计算机视觉解决方案!