视觉 AI

探索 OpenAI 的 GPT-5：一个智能统一系统

了解 GPT-5 如何结合快速响应、高级推理和多模态技能，在广泛的主题中提供准确、有用的答案。

ABAbirami Vina

6 min readAugust 12, 2025

最近，ChatGPT 在全球范围内得到广泛应用，重新定义了我们与技术互动的方式。它由大语言模型（即 LLM）提供支持，这些 AI 系统通过学习海量文本来理解问题并生成自然的、语境感知的回答。

2025 年 8 月 7 日，OpenAI 推出了 GPT-5，这是其 ChatGPT 模型中最新且功能最强大的版本。这个智能统一模型融合了快速回答、高级推理和多模态能力，可在编程、写作、健康等领域提供准确且有益的结果。

在本文中，我们将深入了解 GPT-5 是什么，它如何改进了 GPT-4o，它的突出功能以及你如何开始使用它。让我们开始吧！

Link to this section什么是 GPT-5？#

GPT-5 是 OpenAI 最新的 ChatGPT 模型，旨在比早期版本更智能、更快速且更灵活。与 GPT-4o 或 OpenAI o3 不同，它能够决定何时给出快速回答，以及何时在遇到难题时进行更深入的思考。

这有助于它在处理简单任务时保持响应速度，而在处理复杂任务时保持谨慎。因此，用户无需在不同模型或设置之间切换，因为 GPT-5 会自动适应当前情况。

GPT-5 通过单个提示词就能完成的一个有趣示例是创建完整的交互式游戏。只要请求得当，它就能设计游戏玩法、编写代码、添加视觉效果，甚至包含音效，而无需用户将任务拆解为多个步骤。

GPT-5 可以通过一个提示词创建交互式游戏

图 1. GPT-5 可以通过一个提示词创建交互式游戏。（来源）

Link to this sectionOpenAI 的 ChatGPT 是如何演进的#

以下是 ChatGPT 从早期版本发展到 GPT-5 的简要概述。

GPT-3：它向公众介绍了大语言模型，并展示了 AI 模型如何进行自然的、类人的对话。
GPT-4：该模型在准确性和推理能力上有所提升，使回答在更广泛的主题中更加可靠。
GPT-4o：GPT-4o 缩短了响应时间，并增强了针对文本、图像和其他格式的多模态能力。
OpenAI o3：它专注于扩展推理，使模型能够解决更复杂和多步骤的问题。
GPT-5：这个新模型结合了早期的进步，具有更智能的决策能力、增强的多模态技能、更少的事实错误以及更诚恳的沟通风格。

ChatGPT 的每个版本都建立在前一代优势的基础上，而 GPT-5 代表了迄今为止在速度、准确性和适应性之间最平衡的结合。它能够检测缺失或不完整输入的能力，凸显了自早期模型以来多模态理解所取得的巨大进步。

一个 GPT-5 如何识别缺失图像的示例，与 OpenAI o3 不同

图 2. GPT-5 如何识别缺失图像的示例，与 OpenAI o3 不同。（来源）

Link to this sectionGPT-5 的关键功能和改进#

除了作为一个统一系统外，GPT-5 还带来了一些改进，使其在实际应用中更强大、更灵活。开发者可以更好地控制其响应方式，并能够调整推理深度、回答长度以及处理超长上下文窗口的能力。它还支持更可靠的工具使用，从而更易于集成到复杂的工作流和应用程序中。

GPT-5 已经在广泛的行业基准测试中进行了测试，这些基准测试是衡量 AI 模型在特定领域表现的标准指标。在模拟实际软件工程任务的编码挑战中，它在 SWE-bench Verified 上得分为 74.9%，在 Aider Polyglot 上得分为 88%，这意味着它比以前的模型能更准确地编写、编辑和修复代码。

同时，在考察 AI 理解和解释图像或视频能力的多模态推理测试中，它在 MMMU 上达到了 84.2%，在 VideoMMMU 上达到了 84.6%。同样，对于 GPQA Diamond 基准测试中的复杂科学问题，GPT-5 pro 在不使用外部工具的情况下获得了 88.4% 的分数，展示了其在高水平推理方面的实力。

凭借先进的推理能力，GPT-5 pro 在 GPQA 上的得分达到 88.4%