OpenAI o1:用于 AI 推理的全新 OpenAI 模型系列
了解最新发布的 OpenAI o1 模型及其独特之处。我们还将深入探讨它们的工作原理以及对 AI 未来的影响。

AI 社区一直对 OpenAI 的 GPT 模型 的下一步发展充满了猜测,许多人将其称为“草莓计划”(Project Strawberry)。其背后的原因是,如果你 提示 GPT-4o 询问单词 "strawberry" 中有多少个字母 R,它会告诉你单词 "strawberry" 中有两个 R。考虑到 GPT-4o 的强大功能,这似乎很奇怪。然而,该模型的构建初衷是处理潜台词,而非确切的单词。有传言称,下一个模型将致力于解决这个问题。Sam Altman 在他的 X(前身为 Twitter)账号 上发布了草莓的照片,进一步助长了这些传言。
随着 OpenAI 在 9 月 12 日星期四发布的最新公告,我们终于得到了这些猜测的答案!OpenAI o1 已正式发布,这是一个旨在放慢速度并先思考再回答的全新 AI 模型系列。有趣的是,OpenAI o1 能够更好地推理,并能正确回答关于草莓的问题!在本文中,我们将讨论 OpenAI o1 是什么、它是如何工作的、它可以在哪里使用,以及它对 AI 的未来意味着什么。让我们开始吧!

图 1. 关于草莓向 OpenAI o1 进行提示的示例。
Link to this sectionOpenAI 在 AI 领域的新进展#
2024 年 7 月,OpenAI 高管分享称,OpenAI 的研究正接近人类水平的问题解决能力,即所谓的 AI 2 级。显然,这一级别侧重于推理,因为 OpenAI 推出其新模型系列 OpenAI o1 时,强调了它在回答前会先进行“思考”。OpenAI o1 是一种新的 LLM(大语言模型),这是一种通过从海量语言数据中学习模式来理解并生成类人文本的 AI 模型。它专为处理需要深入推理的复杂问题而设计。

图 2. OpenAI 关于 AI 阶段的观点。
该模型已经过 训练,使用了 强化学习,这是一种通过奖励或惩罚其行为,让模型在试错中学习做出更好决策的技术。强化学习算法通过遵循思维链帮助模型更有效地思考。OpenAI 还分享道,o1 的 性能 会随着训练期间更多的强化学习以及在解决问题时投入更多“思考”时间而不断提升,这表明延长的训练和深入的思考过程都有助于增强模型的能力。
虽然 OpenAI o1 在复杂推理方面是一项重大进步,但它仍处于早期阶段,缺少一些让 ChatGPT 变得实用的功能,例如浏览网页或上传文件和图像。对于许多常见任务,目前 GPT-4o 可能仍然更强大。然而,OpenAI o1 代表了 AI 处理复杂推理能力的一大飞跃,这就是为什么 OpenAI 开辟了新系列并将其命名为 OpenAI o1。
Link to this sectionOpenAI 的新模型如何增强 AI 推理能力#
OpenAI o1 可用于解码密码、解决编程挑战、回答数学题、攻克填字游戏,甚至处理 科学、安全和 医疗保健等复杂课题。为了呼应该项目的代号,OpenAI 展示了该模型的推理能力,成功破解了一个包含“THERE ARE THREE R’S IN STRAWBERRY(草莓中有三个 R)”这条信息的密码。
除了破解密码,OpenAI o1 在编码方面也表现出色。它在 Codeforces 等竞技编程挑战中表现优异,这是一个程序员在限时条件下解决复杂编码问题的平台。在这些挑战中,该模型获得了很高的 Elo 等级分(一种根据与其他选手的表现对比来衡量技能水平的评分系统),并超越了以往的模型。它在数学方面也表现卓越,并在美国数学邀请赛 (AIME) 等考试中取得了出色成绩。

图 3. 对 o1 编码能力的基准测试。
这些进步使得 OpenAI o1 成为较旧模型(如 GPT-4o)的一次重大升级。它为 AI 在商业、开发、研究和医疗保健等领域的应用开辟了新可能。例如,在遗传学研究中,OpenAI o1 可以快速阅读大量研究论文,梳理出关键发现以及基因标记与疾病之间的联系。它能够理解复杂的科学语言并概括要点,从而帮助研究人员专注于最相关的信息。
Link to this section深入了解思维链#
We saw earlier that OpenAI o1 introduces a "Chain of Thought" reasoning process. It enables the model to tackle complex problems in a manner similar to human cognitive strategies. The model can break down challenges into smaller, manageable steps and iteratively refine its approach. Unlike earlier models that relied on immediate pattern recognition, o1 optimizes its decision-making by exploring multiple reasoning paths, learning from both successes and mistakes through reinforcement learning.
OpenAI 已决定对用户隐藏这些原始的思维链,转而提供摘要,在不暴露每一步细节的情况下,让用户深入了解模型的推理过程。这一决定有助于防止模型思维过程被滥用,同时仍然允许开发人员监控和完善 AI 的安全性和对齐性。通过在内部观察隐藏的思维链,开发人员可以确保 o1 遵循道德准则并避免有害行为。
Link to this sectionOpenAI o1 基准测试#
OpenAI o1 在多项测试推理和问题解决能力的基准测试中,表现出比 GPT-4o 更大的提升。在 2024 年美国数学邀请赛 (AIME) 这场面向顶尖高中生的挑战性数学考试中,o1 在每个问题仅使用一个样本的情况下实现了 74% 的准确率,而 GPT-4o 仅为 12%。在 64 个样本达成一致的情况下,其准确率提升至 83%;通过使用包含 1,000 个样本的精细重新排序方法,准确率达到了 93%,使其跻身全国前 500 名学生之列。
除了数学,o1 在测试科学知识的基准测试(如 GPQA Diamond)中也表现极其优异,该测试涵盖了化学、物理和生物学领域的博士级问题。值得注意的是,o1 在该测试中的表现超过了拥有博士学位的领域专家,成为第一个实现这一成就的 AI 模型。它还在 MMLU 基准测试(测试包括历史、法律和科学在内的各种学科的理解能力)的 57 个类别中的 54 个类别里胜过了 GPT-4o。

图 4. OpenAI o1 基准测试。
Link to this section上手体验 OpenAI o1#
OpenAI 在 o1 系列中推出了两款新 AI 模型:o1-preview 和 o1-mini。o1-preview 模型旨在响应前进行更深入的思考,擅长科学、编码和数学方面的复杂推理任务。它为用户处理具有挑战性的项目提供了先进的问题解决能力。相比之下,o1-mini 是一款体积更小、速度更快且性价比更高的模型,专门针对 STEM 推理(特别是数学和编码)进行了优化。虽然它的通用知识可能较少,但 o1-mini 在 AIME 数学竞赛和 Codeforces 编码挑战等关键评估中的表现几乎与 o1-preview 持平,且成本降低了 80%。

图 5. OpenAI 模型比较。
你可以通过各种 OpenAI 平台尝试这些模型。ChatGPT Plus 和 Team 用户可以通过模型选择器访问 o1-preview 和 o1-mini,直接在 ChatGPT 中体验增强的推理能力。拥有 API 使用层级 5 权限的开发人员可以开始使用这些模型进行原型设计,尽管一些高级功能仍在开发中。OpenAI 还计划不久后向所有 ChatGPT 免费用户提供 o1-mini。通过探索这些模型,你可以亲身体验 AI 推理的进步,并选择最适合你需求的那一个。
Link to this sectionOpenAI 考虑的道德 AI 问题#
OpenAI 在开发 o1 模型系列时,重点关注了道德与安全问题。在发布 o1-preview 和 o1-mini 模型之前,他们进行了全面的评估,包括针对不允许的内容、幻觉和偏见等风险进行的外部测试和内部检查。这些模型设计有先进的推理能力,以便更好地理解并遵循安全规则。
OpenAI 还实施了安全措施,例如黑名单和安全分类器,以管理风险。o1 模型整体风险等级为中等。它在网络安全和模型自主性等领域的风险较低,在 CBRN(化学、生物、放射和核)内容和劝说等领域的风险则为中等。OpenAI 的安全咨询小组和董事会已经审查了这些安全措施,以确保模型使用起来是安全且符合道德的。

图 6. OpenAI o1 记分卡。
Link to this section从传言到现实:OpenAI o1 登台亮相#
OpenAI o1 是 AI 推理领域的巨大进步,将一些早期的传言变成了现实。与 GPT-4o 不同,o1 系列通过使用“思维链”方法进行更深入的思考,将复杂问题分解为更小的步骤,从而获得更好的响应。目前,OpenAI o1 作为早期预览版可在 ChatGPT 和 API 中使用,OpenAI 计划后续添加网页浏览以及文件和图像上传等功能。OpenAI 还表示,他们计划在发布全新的 OpenAI o1 系列的同时,继续开发和发布 GPT 系列模型。随着 AI 的不断演进,这些进步正在为更强大、直观且多功能的 AI 系统铺平道路,使它们能够更好地辅助并理解人类需求。
加入我们的社区来紧跟 AI 的最新动态吧!前往我们的 GitHub 仓库,了解我们如何引领 制造业和医疗保健等领域的 AI 解决方案。 🚀






