深圳尤洛视觉
深圳
立即加入

OpenAI o1:OpenAI 用于 AI 推理的新模型系列

Abirami Vina

5 分钟阅读

2024年9月13日

了解新推出的 OpenAI o1 模型及其特别之处。我们还将了解它们的工作原理及其对人工智能未来的影响。

人工智能社区一直在猜测 OpenAI 的 GPT 模型的下一步发展,许多人将其称为“草莓项目”。背后的原因是,如果你提示 GPT-4o,询问单词“strawberry”中有多少个 R,它会告诉你单词“strawberry”中有两个 R。考虑到 GPT-4o 的强大功能,这似乎很奇怪。但是,该模型旨在处理潜台词,而不是确切的词语。有传言称,下一个模型将旨在解决这个问题。Sam Altman 通过在他的 X(以前称为 Twitter)帐户上发布草莓图片,进一步助长了这些传言。

随着 OpenAI 最新公告于 9 月 12 日星期四发布,我们终于得到了关于猜测的答案! OpenAI o1,一种旨在放慢速度并在响应前进行思考的全新 AI 模型系列已经发布。有趣的是,OpenAI o1 可以更好地推理并正确回答关于草莓的问题!在本文中,我们将讨论 OpenAI o1 是什么、它是如何工作的、它可以在哪里使用,以及它对 AI 的未来意味着什么。让我们开始吧!

__wf_reserved_inherit
图 1. 关于提示 OpenAI o1 询问草莓的示例。

OpenAI 在人工智能领域的新进展

2024年7月,OpenAI 的高管们分享说,OpenAI 的研究正接近人类水平的问题解决能力,被称为 人工智能的第 2 级。很明显,这一级别侧重于推理,因为 OpenAI 推出了新的模型系列 OpenAI o1,它会在回答之前进行思考。OpenAI o1 是一种新的 LLM(大型语言模型),这是一种通过学习大量语言数据的模式来理解和生成类似人类文本的人工智能模型。它旨在处理需要深入推理的复杂问题。 

__wf_reserved_inherit
图 2. OpenAI 对 AI 发展阶段的看法。

该模型已经使用强化学习进行了训练,这是一种模型通过试错,并通过对其行为的奖励或惩罚来学习做出更好决策的技术。强化学习算法通过遵循思维链来帮助模型更有效地思考。OpenAI 还分享说,o1 的性能随着训练期间更多的强化学习以及在解决问题期间花费更多的时间“思考”而不断提高,这表明扩展训练和周到的处理都有助于提高模型的能力。

虽然OpenAI o1是复杂推理方面的一项重大进步,但它仍然是一个早期模型,缺乏一些使ChatGPT有用的功能,例如浏览网页或上传文件和图像。对于许多常见任务,GPT-4o现在可能仍然更强大。但是,OpenAI o1标志着AI处理复杂推理能力方面的一大进步,这就是OpenAI开始一个新系列并将其命名为OpenAI o1的原因。

新型 OpenAI 模型如何增强 AI 推理能力

OpenAI o1 可用于解码密码、解决编程难题、回答数学问题、解决纵横字谜,甚至处理 科学安全医疗保健 中的复杂主题等任务。为了有趣地呼应该项目的代号,OpenAI 通过破解一个密码来展示该模型的 推理能力,该密码揭示了“STRAWBERRY 中有三个 R”的信息。 

除了解决密码之外,OpenAI o1 还擅长编码。它在竞争性编程挑战中表现出色,例如 Codeforces 上的挑战,Codeforces 是一个程序员在时间限制下解决复杂编码问题的平台。在这些挑战中,该模型获得了很高的 Elo 评分(一种根据与其他竞争对手的比赛表现来衡量技能水平的评分系统),并且优于之前的模型。它在数学方面也很出色,并且在 考试(如美国邀请数学考试 (AIME))中表现良好。 

__wf_reserved_inherit
图 3. o1 编码能力基准测试。

这些进步使 OpenAI o1 成为对 GPT-4o 等早期模型的重大升级。它为人工智能在商业、开发、研究医疗保健等领域开辟了新的可能性。例如,在遗传学研究中,OpenAI o1 可以快速浏览大量的研究论文,挑选出关键发现以及遗传标记与疾病之间的联系。它理解复杂的科学语言,可以总结重要的观点,帮助研究人员专注于最相关的信息。 

仔细研究思维链

我们之前看到 OpenAI 的 o1 引入了“思维链”推理过程。它使模型能够以类似于人类认知策略的方式处理复杂问题。该模型可以将挑战分解为更小、更易于管理的步骤,并迭代地改进其方法。与早期依赖即时模式识别模型不同,o1 通过探索多个推理路径,并通过强化学习从成功和错误中学习,从而优化其决策。

OpenAI 决定对用户隐藏这些原始的思维链,而是提供摘要,以便在不暴露每个步骤的情况下深入了解模型的推理过程。此决定有助于防止滥用模型的思维过程,同时允许开发人员监控和改进 AI 的安全性和一致性。通过在内部观察隐藏的链条,开发人员可以确保 o1 遵守 道德准则 并避免有害行为。

OpenAI o1 基准测试

OpenAI o1 在测试推理和问题解决能力的几个 基准 方面显示出比 GPT-4o 的重大改进。在 2024 年美国邀请数学考试 (AIME) 中,这是一项针对顶尖高中生的具有挑战性的数学考试,o1 在每个问题仅使用一个样本的情况下,实现了 74% 的准确率,而 GPT-4o 的准确率为 12%。通过对 64 个样本达成共识,其准确率提高到 83%,并且通过使用具有 1,000 个样本的精细重新排序方法,其准确率达到 93%,使其跻身全国前 500 名学生之列。 

除了数学之外,o1 在测试科学知识的基准测试中也表现出色,例如 GPQA Diamond,它涵盖了化学、物理学生物学的博士水平问题。值得注意的是,o1 在此测试中优于拥有博士学位的人类专家,使其成为第一个这样做的 AI 模型。它还在 MMLU 基准测试的 57 个类别中的 54 个类别中优于 GPT-4o,该基准测试测试对各种学科的理解,包括历史法律和科学。

__wf_reserved_inherit
图 4. OpenAI o1 基准测试。

亲身体验 OpenAI o1

OpenAI 在 o1 系列中推出了两个新的人工智能模型:o1-preview 和 o1-mini。o1-preview 模型旨在在响应之前进行更深入的思考,擅长科学、编码和数学方面的复杂推理任务,为用户解决具有挑战性的项目提供先进的问题解决能力。相比之下,o1-mini 是一款更小、更快、更具成本效益的模型,专门针对 STEM 推理(尤其是数学和编码)进行了优化。虽然它的世界知识可能较少,但在 AIME 数学竞赛和 Codeforces 编码挑战等关键评估中,o1-mini 几乎与 o1-preview 的性能相匹配,而成本却降低了 80%。

__wf_reserved_inherit
Fig 5. OpenAI 模型对比。

您可以通过各种 OpenAI 平台试用这些模型。ChatGPT Plus 和 Team 用户可以通过模型选择器访问 o1-preview 和 o1-mini,直接在 ChatGPT 中体验增强的推理能力。具有 API 使用层级 5 访问权限的开发人员可以开始使用这些模型进行原型设计,但某些高级功能仍在开发中。OpenAI 还计划很快向所有 ChatGPT Free 用户提供 o1-mini。通过探索这些模型,您可以亲身体验 AI 推理的进步,并选择最适合您需求的模型。

OpenAI 提出的伦理 AI 考量

OpenAI 在开发 o1 模型系列时,专注于 伦理和安全。在发布 o1-preview 和 o1-mini 模型之前,他们进行了全面的评估,包括外部测试和内部检查,以评估诸如违禁内容、幻觉和偏见等风险。这些模型在设计上具有先进的推理能力,可以更好地理解和遵守安全规则。 

OpenAI 还实施了诸如阻止列表和安全分类器之类的安全措施来管理风险。o1 模型的总体风险等级为中等。它在网络安全和模型自主性等领域的风险较低,而在 CBRN(化学、生物、放射性和核)内容和说服等领域的风险为中等。OpenAI 的安全咨询小组和董事会已经审查了这些 安全措施,以确保该模型在使用上是安全和符合伦理道德的。

__wf_reserved_inherit
图 6. OpenAI o1 记分卡。

从传言到现实:OpenAI o1 登上舞台

OpenAI o1 是 AI 推理方面的一大进步,将早期的一些传言变成了现实。与 GPT-4o 不同,o1 系列通过使用“思维链”方法进行更深入的思考,将复杂的问题分解为更小的步骤,从而获得更好的响应。目前,OpenAI 在 ChatGPT 和 API 中以早期预览版的形式提供,并计划添加诸如网页浏览以及文件和图像上传之类的功能。OpenAI 还表示,他们计划继续开发和发布 GPT 系列中的模型,以及新的 OpenAI o1 系列。随着 AI 的不断发展,诸如此类的进步正在为更强大、更直观和更通用的 AI 系统铺平道路,这些系统可以更好地帮助和理解人类的需求。

加入我们的社区,了解人工智能领域的最新动态!访问我们的GitHub 仓库,了解我们如何在制造业医疗保健等领域率先推出人工智能解决方案。🚀

让我们一起构建人工智能的未来!

开启您的机器学习未来之旅

免费开始
链接已复制到剪贴板