遇见 YOLO26: 下一代视觉 AI。
Ultralytics
视觉 AI

深入探讨 OpenAI 的 GPT-4o Mini 的功能

探索 GPT-4o Mini 的功能和应用。OpenAI 最新且最具成本效益的模型提供了先进的人工智能功能,价格比 GPT-3.5 Turbo 便宜 60%。

ABAbirami Vina
6 min read
OpenAI GPT-4o Mini 高成本效益的多模态人工智能模型

2024 年 5 月,OpenAI 发布了 GPT-4o,而仅仅三个月后,他们又带来了一款令人印象深刻的模型:GPT-4o Mini。2024 年 7 月 18 日,OpenAI 推出了 GPT-4o Mini。他们称其为“最具成本效益的模型”!GPT-4o Mini 是一款紧凑型模型,它在以往模型的基础上进行了构建,旨在让先进的 AI 变得更易于获取且价格更实惠。

GPT-4o Mini 目前支持 文本和视觉交互,未来预计将通过更新添加处理图像、视频和音频的功能。在本文中,我们将探索 GPT-4o Mini 是什么、它的突出特点、如何使用它、GPT-4 与 GPT-4o Mini 之间的区别,以及它如何在各种计算机视觉用例中发挥作用。让我们开始深入了解 GPT-4o Mini 能为你提供什么吧!

Link to this sectionGPT-4o Mini 是什么?#

GPT-4o Mini 是 OpenAI AI 模型阵营中的最新成员,旨在实现更高的成本效益和易用性。它是一个多模态 大语言模型 (LLM),这意味着它可以处理和生成不同类型的数据,如文本、图像、视频和音频。该模型以 GPT-4 和 GPT-4o 等先前模型的优势为基础,在紧凑的封装中提供了强大的功能。

GPT-4o Mini 比 GPT-3.5 Turbo 便宜 60%,每百万输入 token(模型处理的文本或数据单元)收费 15 美分,每百万输出 token(模型响应生成的单元)收费 60 美分。为了让你有个直观感受,一百万 token 大约相当于处理 2,500 页文本。凭借 128K token 的上下文窗口以及处理每个请求高达 16K 输出 token 的能力,GPT-4o Mini 被设计得既高效又经济。

GPT-4o Mini 比 GPT-3.5 Turbo 便宜 60%

图 1. GPT-4o Mini 比 GPT-3.5 Turbo 便宜 60%。

Link to this sectionGPT-4o Mini 的主要特点#

GPT-4o Mini 支持一系列任务,使其成为各种应用场景的理想选择。当需要同时运行多个操作(例如调用多个 API)、处理大量数据(如完整代码库或对话历史),以及在 客户支持聊天机器人 中提供快速的实时响应时,它都能派上用场。

以下是其他一些关键功能:

  • 更新的知识库: 该模型包含截至 2023 年 10 月的信息。
  • 改进的分词器 (Tokenizer): GPT-4o Mini 使处理非英语文本更具成本效益。
  • 强大的安全措施: 这些措施包括过滤有害内容,以及防止 prompt 注入和系统篡改等安全问题。

Link to this sectionGPT-4o Mini 入门指南#

你可以通过 ChatGPT 界面试用 GPT-4o Mini。Free、Plus 和 Team 用户均可使用它,它取代了 GPT-3.5,如下所示。Enterprise 用户也将很快获得访问权限,这符合 OpenAI 为所有人提供 AI 益处的目标。GPT-4o Mini 也通过 API 提供给那些希望将其功能集成到应用程序中的开发者。目前,视觉功能仅能通过 API 访问。

ChatGPT 中的模型选项

图 2. ChatGPT 中的模型选项。

Link to this sectionGPT-4o 与 GPT-4o Mini 的区别#

GPT-4o 和 GPT-4o Mini 在各项基准测试中均表现出色。虽然 GPT-4o 的表现通常优于 GPT-4o Mini,但 GPT-4o Mini 仍然是日常任务的经济高效解决方案。基准测试涵盖推理任务、数学和编程能力以及多模态推理。如下图所示,与其他流行模型相比,GPT-4o Mini 的基准测试得分相当高。

将 GPT-4o Mini 与其他热门模型进行对比

图 3. 比较 GPT-4o Mini 与其他流行模型。

Link to this section上手体验 GPT-4o 和 GPT-4o Mini#

一个在网上引起热议的有趣 prompt 涉及 流行的 LLM 对小数进行错误比较。当我们对 GPT-4o 和 GPT-4o Mini 进行测试时,它们的推理能力显示出明显的差异。在下图中,我们询问两个模型 9.11 和 9.9 哪个更大,然后让它们解释各自的推理。

测试 GPT-4o 和 GPT-4o Mini 的推理能力

图 4. 测试 GPT-4o 和 GPT-4o Mini。

两个模型最初都给出了错误回答,声称 9.11 更大。然而,GPT-4o 能够推理出正确答案,并指出 9.9 更大。它提供了详细的解释并准确地比较了小数。相比之下,GPT-4o Mini 虽然能正确理解 9.9 更大的推理逻辑,却固执地维持其最初的错误回答。

这两个模型都展现了强大的推理能力。GPT-4o 自我纠正的能力使其更胜一筹,更适用于复杂任务。GPT-4o Mini 虽然适应性稍弱,但对于简单任务仍能提供清晰准确的推理。

Link to this section将 GPT-4o Mini 用于各种计算机视觉用例#

如果你想在不接触代码的情况下探索 GPT-4o Mini 的视觉功能,你可以轻松地在 OpenAI Playground 上测试 API。我们亲自进行了尝试,以查看 GPT-4o Mini 处理各种计算机视觉相关用例的能力。

Link to this section使用 GPT-4o Mini 进行图像分类#

我们要求 GPT-4o Mini 分类两张图片:一张是蝴蝶,另一张是地图。该 AI 模型成功识别出了蝴蝶和地图。鉴于这两张图片差异很大,这是一个相当简单的任务。

使用 GPT-4o Mini 对蝴蝶和地图图像进行分类

图 5. 在 GPT-4o Mini 的帮助下进行图像分类。

我们继续向模型输入了另外两张图片:一张显示蝴蝶停在植物上,另一张显示蝴蝶停在地面上。该 AI 再次表现出色,正确地识别出了植物上的蝴蝶和地面上的蝴蝶。因此,我们又更进了一步。

使用 GPT-4o Mini 对相似的蝴蝶图像进行分类

图 6. 在 GPT-4o Mini 的帮助下分类相似的图片。

接着,我们要求 GPT-4o Mini 分类两张图片:一张展示了蝴蝶在沼泽乳草花上觅食,另一张展示了蝴蝶在百日草花上觅食。令人惊叹的是,该模型无需进一步微调就能给出如此具体的分类标签。这些快速示例表明,GPT-4o Mini 有可能在不需要定制训练的情况下用于 图像分类 任务。

使用 GPT-4o Mini 对细节丰富的蝴蝶图像进行分类

图 7. 在 GPT-4o Mini 的帮助下分类细节图片。

Link to this section使用 GPT-4o Mini 理解姿态#

目前,诸如 目标检测实例分割 等计算机视觉任务无法通过 GPT-4o Mini 处理。GPT-4o 处理这些任务虽显吃力,但尚可使用。同样地,关于 姿态理解,我们无法检测或估计图片中的姿态,但可以分类和理解该姿态。

使用 GPT-4o Mini 理解图像中的姿势

图 8. 使用 GPT-4o Mini 理解图片中的姿态。

上图展示了 GPT-4o Mini 如何对姿态进行分类和理解,尽管它无法检测或估计姿态的精确坐标。这在不同应用中会很有帮助。例如,在 体育分析 中,它可以广泛地评估运动员的动作并有助于预防损伤。同样,在 物理治疗 中,它可以协助监测练习,确保患者在康复过程中做出正确的动作。此外,对于 监控,它可以通过分析一般肢体语言来帮助 识别可疑活动。虽然 GPT-4o Mini 无法检测特定的关键点,但它对一般姿态进行分类的能力使其在这些领域及其他领域非常有用。

Link to this sectionGPT-4o Mini 适用的应用场景#

我们已经了解了 GPT-4o Mini 的功能。现在,让我们讨论一下最适合使用 GPT-4o Mini 的应用场景。

GPT-4o Mini 非常适合那些需要先进自然语言理解且对计算占用空间要求较低的应用。它使得将 AI 集成到原本成本过高的应用中成为可能。实际上,Artificial Analysis 的详细分析表明,与大多数其他模型相比,GPT-4o Mini 能以极快的速度提供高质量响应。

GPT-4o Mini 的质量与输出速度对比

图 9. GPT-4o Mini 的质量与输出速度对比。

以下是未来它可能大放异彩的几个 关键领域

  • 虚拟助手和聊天机器人: GPT-4o Mini 可以提供快速且智能的响应,以改善用户交互。
  • 教育工具: 该模型可用于构建工具,以提供 个性化辅导和内容生成
  • 生产力工具: 它可以通过总结文档、起草电子邮件和翻译语言等方式 改善任务处理,从而提高效率。
  • 语言翻译: 最新版本的 GPT 可用于开发翻译器,提供准确的实时语言翻译,从而实现不同语言之间更好的沟通。

Link to this sectionGPT-4o Mini 开辟了新机遇#

GPT-4o Mini 正在为多模态 AI 的未来创造新的机遇。自 2022 年 GPT-3 模型 text-davinci-003 发布以来,处理每段文本或数据的成本(即每 token 成本)已经大幅下降了近 99%。成本的下降表明了一个明确的趋势,即让先进的 AI 变得更加负担得起。随着 AI 模型不断改进,将 AI 集成到每个应用程序和网站中在经济上变得越来越可行!

想上手体验 AI 吗?访问我们的 GitHub 仓库 查看我们的创新成果,并加入我们活跃的 社区。在我们的解决方案页面上了解更多关于 AI 在 制造业农业 领域的应用。

Explore solutions

Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多

让我们一起构建 AI 的未来!

开启你的机器学习未来之旅