敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024

深入了解 OpenAI GPT-4o Mini 的功能

Abirami Vina

6 分钟阅读

2024年7月25日

探索 GPT-4o Mini 的特性和应用。OpenAI 最新的、最具成本效益的模型以比 GPT-3.5 Turbo 便宜 60% 的价格提供先进的 AI 功能。

2024 年 5 月,OpenAI 发布了 GPT-4o,仅仅三个月后,他们又推出了另一款令人印象深刻的模型:GPT-4o Mini。2024 年 7 月 18 日,OpenAI 推出了 GPT-4o Mini。他们称其为“最具成本效益的模型”!GPT-4o Mini 是一款紧凑型模型,它建立在先前模型的功能之上,旨在使先进的 AI 更易于访问和负担得起。

GPT-4o Mini 目前支持 文本和视觉交互,预计未来的更新将增加处理图像、视频和音频的功能。在本文中,我们将探讨 GPT-4o Mini 是什么、它的突出特点、如何使用它、GPT-4 和 GPT-4o Mini 之间的区别,以及如何在各种计算机视觉用例中使用它。让我们深入了解一下 GPT-4o Mini 提供的功能!

什么是 GPT-4o Mini?

GPT-4o Mini 是 OpenAI AI 模型系列的最新成员,旨在更具成本效益和可访问性。它是一种多模态大型语言模型 (LLM),这意味着它可以处理和生成不同类型的数据,例如文本、图像、视频和音频。该模型建立在 GPT-4 和 GPT-4o 等先前模型的优势之上,以紧凑的封装提供强大的功能。 

GPT-4o Mini 比 GPT-3.5 Turbo 便宜 60%,每百万个输入 tokens(模型处理的文本或数据单元)的成本为 15 美分,每百万个输出 tokens(模型响应中生成的单元)的成本为 60 美分。从这个角度来看,一百万个 tokens 大致相当于处理 2,500 页文本。GPT-4o Mini 具有 128K tokens 的上下文窗口,并且能够处理每个请求最多 16K 个输出 tokens,因此在设计上兼具效率和经济性。

__wf_reserved_inherit
图 1. GPT-4o Mini 比 GPT-3.5 Turbo 便宜 60%。

GPT-4o Mini 的主要特点 

GPT-4o Mini 支持一系列任务,使其成为各种应用的绝佳选择。它可以在同时运行多个操作时使用,例如调用多个 API、处理大量数据(如完整的代码库或对话历史记录)以及在 客户支持聊天机器人 中提供快速的实时响应。

以下是一些其他主要特点:

  • 更新的知识库:该模型包含截至 2023 年 10 月的信息。
  • 改进的分词器: GPT-4o Mini 使处理非英语文本更具成本效益。
  • 强大的安全措施: 这些措施包括过滤有害内容和防止诸如提示注入和系统操纵等安全问题。

GPT-4o Mini 入门 

您可以通过 ChatGPT 界面尝试使用 GPT-4o Mini。免费、Plus 和团队用户均可使用,它将取代 GPT-3.5,如下所示。企业 用户也将很快获得访问权限,这符合 OpenAI 向所有人提供 AI 优势的目标。GPT-4o Mini 也可通过 API 提供给希望将其功能集成到其应用程序中的开发人员。目前,视觉功能仅可通过 API 访问。

__wf_reserved_inherit
图 2. ChatGPT 中的模型选项。

GPT-4o 和 GPT-4o Mini 之间的区别 

GPT-4o Mini 和 GPT-4o 在各种基准测试中都表现出色。虽然 GPT-4o 通常优于 GPT-4o Mini,但 GPT-4o Mini 仍然是日常任务的经济高效的解决方案。这些基准测试包括推理任务、数学和编码能力以及多模态推理。如下图所示,与其他流行的模型相比,GPT-4o Mini 的基准测试得分非常高。

__wf_reserved_inherit
图 3. GPT-4o Mini 与其他流行模型的比较。

GPT-4o 和 GPT-4o Mini 的实际操作

一个有趣的提示是在线讨论的,涉及 流行的 LLM 不正确地比较十进制数字。当我们对 GPT-4o 和 GPT-4o Mini 进行测试时,它们的推理能力显示出明显的差异。在下图中,我们询问了两个模型哪个更大:9.11 还是 9.9,然后让他们解释他们的推理。

__wf_reserved_inherit
图 4. 测试 GPT-4o 和 GPT-4o Mini。

两种模型最初都错误地回答并声称 9.11 更大。但是,GPT-4o 能够推理出正确的答案,并声明 9.9 更大。它提供了详细的解释并准确地比较了小数。相比之下,GPT-4o Mini 固执地坚持其最初的错误答案,尽管它正确地弄清楚了 9.9 更大的原因。

两种模型都显示出强大的推理能力。GPT-4o 的自我纠正能力使其更加出色,并且可用于更复杂的任务。GPT-4o Mini 虽然适应性较差,但仍为较简单的任务提供清晰准确的推理。 

将 GPT-4o Mini 用于各种计算机视觉用例

如果您希望在不深入研究代码的情况下探索 GPT-4o Mini 的视觉功能,您可以轻松地在 OpenAI Playground 上测试 API。我们亲自尝试了一下,看看 GPT-4o Mini 在处理各种计算机视觉相关用例方面的表现如何。

使用 GPT-4o Mini 进行图像分类

我们要求 GPT-4o Mini 对两张图像进行分类:一张是蝴蝶,一张是地图。AI 模型成功识别出蝴蝶和地图。考虑到图像非常不同,这是一个相当简单的任务。

__wf_reserved_inherit
图 5. 在 GPT-4o Mini 的帮助下对图像进行分类。

我们继续通过模型运行了另外两张图像:一张显示蝴蝶停留在植物上,另一张显示蝴蝶停留在地面上。人工智能再次做得很好,正确地识别出植物上的蝴蝶和地面上的蝴蝶。所以,我们再次更进一步。

__wf_reserved_inherit
图 6. 在 GPT-4o Mini 的帮助下对相似图像进行分类。

然后,我们要求 GPT-4o Mini 对两张图像进行分类:一张显示蝴蝶以沼泽马利筋的花朵为食,另一张显示蝴蝶以百日草的花朵为食。令人惊叹的是,该模型能够对如此具体的标签进行分类,而无需进一步的微调。这些快速示例表明,GPT-4o Mini 可能可用于 图像分类 任务,而无需自定义训练。

__wf_reserved_inherit
图 7. 在 GPT-4o Mini 的帮助下对详细图像进行分类。

使用 GPT-4o Mini 了解姿势

截至目前,像 目标检测实例分割 这样的计算机视觉任务无法使用 GPT-4o Mini 处理。GPT-4o 在准确性方面存在困难,但可以用于此类任务。沿着这些思路,关于 理解姿势,我们无法检测或估计图像中的姿势,但我们可以对姿势进行分类和理解。

__wf_reserved_inherit
图 8. 使用 GPT-4o Mini 了解图像中的姿势。 

上图展示了 GPT-4o Mini 如何分类和理解姿势,即使它无法检测或估计姿势的精确坐标。这在不同的应用中都很有帮助。例如,在运动分析中,它可以大致评估运动员的动作并帮助预防受伤。同样,在物理治疗中,它可以协助监控锻炼,以确保患者在康复期间做出正确的动作。此外,对于监控,它可以通过分析一般的肢体语言来帮助识别可疑活动。虽然 GPT-4o Mini 无法检测到特定的关键点,但它分类一般姿势的能力使其在这些和其他领域都非常有用。

GPT-4o Mini 适用的应用

我们已经了解了 GPT-4o Mini 的功能。现在,让我们讨论一下最适合使用 GPT-4o Mini 的应用场景。

GPT-4o Mini 非常适合需要高级自然语言理解且计算占用空间小的应用。它可以将 AI 集成到通常成本过高的应用中。事实上,Artificial Analysis 的一项详细分析表明,与大多数其他模型相比,GPT-4o Mini 以极快的速度提供高质量的响应。

__wf_reserved_inherit
图 9. GPT-4o Mini 的质量与输出速度。

以下是它未来可能大放异彩的一些关键领域

  • 虚拟助手和聊天机器人:GPT-4o Mini 可以提供快速而智能的响应,以改善用户互动。
  • 教育工具:该模型可用于构建工具,以提供个性化辅导和内容生成
  • 生产力工具:它可以改进任务,例如总结文档、起草电子邮件和翻译语言,从而提高效率。
  • 语言翻译:最新版本的 GPT 可用于开发翻译器,提供准确和实时的语言翻译,从而改善不同语言之间的交流。

GPT-4o Mini 开启了新的大门

GPT-4o Mini 正在为多模态 AI 的未来创造新的机会。自 2022 年 GPT-3 模型 text-davinci-003 发布以来,处理每段文本或数据的费用(称为每 token 成本)已大幅下降——几乎下降了 99%。成本的降低清楚地表明了使高级 AI 更经济实惠的趋势。随着 AI 模型的不断改进,将 AI 集成到每个应用和网站中在经济上变得可行越来越有可能!

想亲身体验 AI 吗?访问我们的 GitHub 仓库,了解我们的创新成果,并成为我们活跃的社区的一员。在我们的解决方案页面上了解更多关于 AI 在制造业农业中的应用。

让我们一起构建人工智能的未来!

开启您的机器学习未来之旅

免费开始
链接已复制到剪贴板