OpenAI GPT-4o Mini：深度挖掘与用途 |Ultralytics

2024 年 5 月，OpenAI 发布了 GPT-4o，仅仅三个月后，他们又推出了另一款令人印象深刻的模型：GPT-4o Mini。2024 年 7 月 18 日，OpenAI 推出了 GPT-4o Mini。他们称其为“最具成本效益的模型”！GPT-4o Mini 是一款紧凑型模型，它建立在先前模型的功能之上，旨在使先进的 AI 更易于访问和负担得起。

GPT-4o Mini 目前支持文本和视觉交互，预计未来的更新将增加处理图像、视频和音频的功能。在本文中，我们将探讨 GPT-4o Mini 是什么、它的突出特点、如何使用它、GPT-4 和 GPT-4o Mini 之间的区别，以及如何在各种计算机视觉用例中使用它。让我们深入了解一下 GPT-4o Mini 提供的功能！

什么是 GPT-4o Mini？

GPT-4o Mini 是 OpenAI AI 模型系列的最新成员，旨在更具成本效益和可访问性。它是一种多模态大型语言模型 (LLM)，这意味着它可以处理和生成不同类型的数据，例如文本、图像、视频和音频。该模型建立在 GPT-4 和 GPT-4o 等先前模型的优势之上，以紧凑的封装提供强大的功能。

GPT-4o Mini 比 GPT-3.5 Turbo 便宜 60%，每百万个输入 tokens（模型处理的文本或数据单元）的成本为 15 美分，每百万个输出 tokens（模型响应中生成的单元）的成本为 60 美分。从这个角度来看，一百万个 tokens 大致相当于处理 2,500 页文本。GPT-4o Mini 具有 128K tokens 的上下文窗口，并且能够处理每个请求最多 16K 个输出 tokens，因此在设计上兼具效率和经济性。

__wf_reserved_inherit — 图 1. GPT-4o Mini 比 GPT-3.5 Turbo 便宜 60%。

GPT-4o Mini 的主要特点

GPT-4o Mini 支持一系列任务，使其成为各种应用的绝佳选择。它可以在同时运行多个操作时使用，例如调用多个 API、处理大量数据（如完整的代码库或对话历史记录）以及在客户支持聊天机器人中提供快速的实时响应。

以下是一些其他主要特点：

更新的知识库：该模型包含截至 2023 年 10 月的信息。
‍
改进的令牌器：
‍
强大的安全措施： 这些措施包括过滤有害内容和防止诸如提示注入和系统操纵等安全问题。

GPT-4o Mini 入门

您可以尝试通过ChatGPT 界面使用 GPT-4o Mini。如下图所示，免费用户、Plus 用户和团队用户都可以使用它，取代 GPT-3.5。根据 OpenAI 为所有人提供人工智能福利的目标，企业用户也将很快获得访问权。GPT-4o Mini 还可通过 API 提供给希望将其功能集成到其应用程序中的开发人员。目前，视觉功能只能通过 API 访问。

GPT-4o 和 GPT-4o Mini 之间的区别

GPT-4o Mini 和 GPT-4o 在各种基准测试中都表现出色。虽然 GPT-4o 通常优于 GPT-4o Mini，但 GPT-4o Mini 仍然是日常任务的经济高效的解决方案。这些基准测试包括推理任务、数学和编码能力以及多模态推理。如下图所示，与其他流行的模型相比，GPT-4o Mini 的基准测试得分非常高。

GPT-4o 和 GPT-4o Mini 的实际操作

一个有趣的提示是在线讨论的，涉及流行的 LLM 不正确地比较十进制数字。当我们对 GPT-4o 和 GPT-4o Mini 进行测试时，它们的推理能力显示出明显的差异。在下图中，我们询问了两个模型哪个更大：9.11 还是 9.9，然后让他们解释他们的推理。

两种模型最初都错误地回答并声称 9.11 更大。但是，GPT-4o 能够推理出正确的答案，并声明 9.9 更大。它提供了详细的解释并准确地比较了小数。相比之下，GPT-4o Mini 固执地坚持其最初的错误答案，尽管它正确地弄清楚了 9.9 更大的原因。

两种模型都显示出强大的推理能力。GPT-4o 的自我纠正能力使其更加出色，并且可用于更复杂的任务。GPT-4o Mini 虽然适应性较差，但仍为较简单的任务提供清晰准确的推理。

将 GPT-4o Mini 用于各种计算机视觉用例

如果您希望在不深入研究代码的情况下探索 GPT-4o Mini 的视觉功能，您可以轻松地在 OpenAI Playground 上测试 API。我们亲自尝试了一下，看看 GPT-4o Mini 在处理各种计算机视觉相关用例方面的表现如何。

使用 GPT-4o Mini 进行图像分类

我们要求 GPT-4o Mini 对两张图片进行classify ：一张是蝴蝶，另一张是地图。人工智能模型成功识别了蝴蝶和地图。由于两张图片截然不同，因此这是一项相当简单的任务。

我们继续通过模型运行了另外两张图像：一张显示蝴蝶停留在植物上，另一张显示蝴蝶停留在地面上。人工智能再次做得很好，正确地识别出植物上的蝴蝶和地面上的蝴蝶。所以，我们再次更进一步。

然后，我们让 GPT-4o Mini 对两张图片进行classify ：一张是蝴蝶在沼泽乳草花上取食的图片，另一张是蝴蝶在紫云英花上取食的图片。令人惊讶的是，该模型无需进一步微调就能对如此具体的标签进行classify 。这些快速示例表明，GPT-4o Mini 可以用于图像分类任务，而无需进行定制训练。

使用 GPT-4o Mini 了解姿势

目前，GPT-4o Mini 还不能处理对象检测和实例分割等计算机视觉任务。GPT-4o 在精确度方面有困难，但可以用于此类任务。因此，在理解姿势方面，我们无法detect 或估计图像中的姿势姿势估计，但我们可以classify 姿势估计 classify 和理解。

上图显示了 GPT-4o Mini 如何对姿势进行classify 和理解，尽管它无法detect 或姿势估计姿势的精确坐标。这在不同的应用中都有帮助。例如，在体育分析中，它可以广泛评估运动员的动作，帮助预防受伤。同样，在物理治疗中，它可以协助监测练习，确保病人在康复过程中做出正确的动作。在监控方面，它还可以通过分析一般的肢体语言来帮助识别可疑活动。虽然 GPT-4o Mini 无法detect 特定的关键点，但它能对一般姿势进行classify ，因此在这些领域和其他领域非常有用。

GPT-4o Mini 适用的应用

我们已经了解了 GPT-4o Mini 的功能。现在，让我们讨论一下最适合使用 GPT-4o Mini 的应用场景。

GPT-4o Mini 非常适合需要高级自然语言理解且计算占用空间小的应用。它可以将 AI 集成到通常成本过高的应用中。事实上，Artificial Analysis 的一项详细分析表明，与大多数其他模型相比，GPT-4o Mini 以极快的速度提供高质量的响应。

以下是它未来可能大放异彩的一些关键领域：

虚拟助手和聊天机器人：GPT-4o Mini 可以提供快速而智能的响应，以改善用户互动。
‍
教育工具：该模型可用于构建工具，以提供个性化辅导和内容生成。
‍
生产力工具：它可以改进任务，例如总结文档、起草电子邮件和翻译语言，从而提高效率。
‍
语言翻译：最新版本的 GPT 可用于开发翻译器，提供准确和实时的语言翻译，从而改善不同语言之间的交流。

GPT-4o Mini 开启了新的大门

GPT-4o Mini 正在为多模态 AI 的未来创造新的机会。自 2022 年 GPT-3 模型 text-davinci-003 发布以来，处理每段文本或数据的费用（称为每 token 成本）已大幅下降——几乎下降了 99%。成本的降低清楚地表明了使高级 AI 更经济实惠的趋势。随着 AI 模型的不断改进，将 AI 集成到每个应用和网站中在经济上变得可行越来越有可能！

想亲身体验 AI 吗？访问我们的 GitHub 仓库，了解我们的创新成果，并成为我们活跃的社区的一员。在我们的解决方案页面上了解更多关于 AI 在制造业和农业中的应用。

深入了解 OpenAI GPT-4o Mini 的功能

什么是 GPT-4o Mini？

GPT-4o Mini 的主要特点

GPT-4o Mini 入门

GPT-4o 和 GPT-4o Mini 之间的区别

GPT-4o 和 GPT-4o Mini 的实际操作

将 GPT-4o Mini 用于各种计算机视觉用例

使用 GPT-4o Mini 进行图像分类

使用 GPT-4o Mini 了解姿势

GPT-4o Mini 适用的应用

GPT-4o Mini 开启了新的大门

阅读更多此类别的内容

12个基于计算机视觉的航拍影像应用场景

医疗诊断用视觉人工智能工具

从数据到决策：运用视觉人工智能制定企业战略

让我们一起构建人工智能的未来！