探索 GPT-4o Mini 的特性和应用。OpenAI 最新的、最具成本效益的模型以比 GPT-3.5 Turbo 便宜 60% 的价格提供先进的 AI 功能。

探索 GPT-4o Mini 的特性和应用。OpenAI 最新的、最具成本效益的模型以比 GPT-3.5 Turbo 便宜 60% 的价格提供先进的 AI 功能。
2024 年 5 月,OpenAI 发布了 GPT-4o,仅仅三个月后,他们又推出了另一款令人印象深刻的模型:GPT-4o Mini。2024 年 7 月 18 日,OpenAI 推出了 GPT-4o Mini。他们称其为“最具成本效益的模型”!GPT-4o Mini 是一款紧凑型模型,它建立在先前模型的功能之上,旨在使先进的 AI 更易于访问和负担得起。
GPT-4o Mini 目前支持 文本和视觉交互,预计未来的更新将增加处理图像、视频和音频的功能。在本文中,我们将探讨 GPT-4o Mini 是什么、它的突出特点、如何使用它、GPT-4 和 GPT-4o Mini 之间的区别,以及如何在各种计算机视觉用例中使用它。让我们深入了解一下 GPT-4o Mini 提供的功能!
GPT-4o Mini 是 OpenAI AI 模型系列的最新成员,旨在更具成本效益和可访问性。它是一种多模态大型语言模型 (LLM),这意味着它可以处理和生成不同类型的数据,例如文本、图像、视频和音频。该模型建立在 GPT-4 和 GPT-4o 等先前模型的优势之上,以紧凑的封装提供强大的功能。
GPT-4o Mini 比 GPT-3.5 Turbo 便宜 60%,每百万个输入 tokens(模型处理的文本或数据单元)的成本为 15 美分,每百万个输出 tokens(模型响应中生成的单元)的成本为 60 美分。从这个角度来看,一百万个 tokens 大致相当于处理 2,500 页文本。GPT-4o Mini 具有 128K tokens 的上下文窗口,并且能够处理每个请求最多 16K 个输出 tokens,因此在设计上兼具效率和经济性。
GPT-4o Mini 支持一系列任务,使其成为各种应用的绝佳选择。它可以在同时运行多个操作时使用,例如调用多个 API、处理大量数据(如完整的代码库或对话历史记录)以及在 客户支持聊天机器人 中提供快速的实时响应。
以下是一些其他主要特点:
您可以通过 ChatGPT 界面尝试使用 GPT-4o Mini。免费、Plus 和团队用户均可使用,它将取代 GPT-3.5,如下所示。企业 用户也将很快获得访问权限,这符合 OpenAI 向所有人提供 AI 优势的目标。GPT-4o Mini 也可通过 API 提供给希望将其功能集成到其应用程序中的开发人员。目前,视觉功能仅可通过 API 访问。
GPT-4o Mini 和 GPT-4o 在各种基准测试中都表现出色。虽然 GPT-4o 通常优于 GPT-4o Mini,但 GPT-4o Mini 仍然是日常任务的经济高效的解决方案。这些基准测试包括推理任务、数学和编码能力以及多模态推理。如下图所示,与其他流行的模型相比,GPT-4o Mini 的基准测试得分非常高。
一个有趣的提示是在线讨论的,涉及 流行的 LLM 不正确地比较十进制数字。当我们对 GPT-4o 和 GPT-4o Mini 进行测试时,它们的推理能力显示出明显的差异。在下图中,我们询问了两个模型哪个更大:9.11 还是 9.9,然后让他们解释他们的推理。
两种模型最初都错误地回答并声称 9.11 更大。但是,GPT-4o 能够推理出正确的答案,并声明 9.9 更大。它提供了详细的解释并准确地比较了小数。相比之下,GPT-4o Mini 固执地坚持其最初的错误答案,尽管它正确地弄清楚了 9.9 更大的原因。
两种模型都显示出强大的推理能力。GPT-4o 的自我纠正能力使其更加出色,并且可用于更复杂的任务。GPT-4o Mini 虽然适应性较差,但仍为较简单的任务提供清晰准确的推理。
如果您希望在不深入研究代码的情况下探索 GPT-4o Mini 的视觉功能,您可以轻松地在 OpenAI Playground 上测试 API。我们亲自尝试了一下,看看 GPT-4o Mini 在处理各种计算机视觉相关用例方面的表现如何。
我们要求 GPT-4o Mini 对两张图像进行分类:一张是蝴蝶,一张是地图。AI 模型成功识别出蝴蝶和地图。考虑到图像非常不同,这是一个相当简单的任务。
我们继续通过模型运行了另外两张图像:一张显示蝴蝶停留在植物上,另一张显示蝴蝶停留在地面上。人工智能再次做得很好,正确地识别出植物上的蝴蝶和地面上的蝴蝶。所以,我们再次更进一步。
然后,我们要求 GPT-4o Mini 对两张图像进行分类:一张显示蝴蝶以沼泽马利筋的花朵为食,另一张显示蝴蝶以百日草的花朵为食。令人惊叹的是,该模型能够对如此具体的标签进行分类,而无需进一步的微调。这些快速示例表明,GPT-4o Mini 可能可用于 图像分类 任务,而无需自定义训练。
截至目前,像 目标检测 和 实例分割 这样的计算机视觉任务无法使用 GPT-4o Mini 处理。GPT-4o 在准确性方面存在困难,但可以用于此类任务。沿着这些思路,关于 理解姿势,我们无法检测或估计图像中的姿势,但我们可以对姿势进行分类和理解。
上图展示了 GPT-4o Mini 如何分类和理解姿势,即使它无法检测或估计姿势的精确坐标。这在不同的应用中都很有帮助。例如,在运动分析中,它可以大致评估运动员的动作并帮助预防受伤。同样,在物理治疗中,它可以协助监控锻炼,以确保患者在康复期间做出正确的动作。此外,对于监控,它可以通过分析一般的肢体语言来帮助识别可疑活动。虽然 GPT-4o Mini 无法检测到特定的关键点,但它分类一般姿势的能力使其在这些和其他领域都非常有用。
我们已经了解了 GPT-4o Mini 的功能。现在,让我们讨论一下最适合使用 GPT-4o Mini 的应用场景。
GPT-4o Mini 非常适合需要高级自然语言理解且计算占用空间小的应用。它可以将 AI 集成到通常成本过高的应用中。事实上,Artificial Analysis 的一项详细分析表明,与大多数其他模型相比,GPT-4o Mini 以极快的速度提供高质量的响应。
以下是它未来可能大放异彩的一些关键领域:
GPT-4o Mini 正在为多模态 AI 的未来创造新的机会。自 2022 年 GPT-3 模型 text-davinci-003 发布以来,处理每段文本或数据的费用(称为每 token 成本)已大幅下降——几乎下降了 99%。成本的降低清楚地表明了使高级 AI 更经济实惠的趋势。随着 AI 模型的不断改进,将 AI 集成到每个应用和网站中在经济上变得可行越来越有可能!
想亲身体验 AI 吗?访问我们的 GitHub 仓库,了解我们的创新成果,并成为我们活跃的社区的一员。在我们的解决方案页面上了解更多关于 AI 在制造业和农业中的应用。