视觉 AI

Anthropic 的 Claude 4 功能：有什么新改进

探索 Anthropic 的 Claude 4 功能，包括推理能力、上下文窗口大小的更新以及常规性能的改进。

ABAbirami Vina

5 min readJune 3, 2025

诸如规划旅行、调试代码、分析图表或总结法律文档等任务，通常需要使用不同的工具或具备相关领域的专业知识。如今，得益于 AI 领域的最新进展，单一的大语言模型 (LLM) 即可协助完成所有这些任务。

LLM 是一种经过训练以理解并生成人类语言的 AI 模型。它通过分析海量文本（书籍、网站、对话等）来学习，从而识别人们写作和交流方式中的规律。一旦完成训练，LLM 就可以回答问题、编写代码、总结文档并执行许多其他基于语言的任务，且通常无需过多指令。

Anthropic 是一家构建此类模型的公司。Anthropic 由一群前 OpenAI 员工于 2021 年创立，专注于创建安全、可靠且易于使用的 AI 系统。他们最新发布的是 Claude 4 模型系列，包括两个版本：Claude Opus 4 和 Claude Sonnet 4。

Claude Opus 4 发布于 2025 年 5 月 22 日，专为需要深度推理和持续专注的复杂任务而设计，例如处理大型代码库或进行深入研究。在一次测试中，它甚至能够通过创建并引用自己的记忆文件来游玩《宝可梦红》，并在游戏过程中生成导航指南以帮助自己保持在进度上。

Claude 4 玩 Pokémon 的示例

图 1. Claude 4 游玩宝可梦的示例。

Claude Sonnet 4 虽然功能不如 Opus 强大，但速度更快、效率更高，使其成为写作、总结和常规问题解决等日常任务的可靠选择。在本文中，我们将深入了解 Claude 4 的关键特性及其发挥作用的领域。让我们开始吧！

Link to this section大语言模型 (LLM) 概述#

在深入探讨 Claude 4 及其功能之前，让我们先了解一下大语言模型如何在现实世界中得到应用。

大多数尖端 LLM 均构建于一种名为 Transformer 的机器学习架构之上，这有助于它们理解长文本中词与词之间的关系。这使得它们不仅能自动补全句子，还能完成总结文档、编写代码、回答问题和翻译语言等更多任务。

事实上，LLM 的一个核心优势在于其灵活性。一旦经过训练，它们无需或仅需极少的额外微调即可执行广泛的任务。这使得它们在从客户支持、教育到软件开发、内容创作和研究等各种应用中都非常有用。

大型语言模型应用场景示意图

图 2. 大语言模型应用场景。

随着 AI 的普及，LLM 正在帮助客户服务团队自动化响应，支持学生使用辅导工具，在像 VS Code 这样的编码环境中协助开发人员，并让专业人士能够轻松筛选合同、报告和数据。同时，一些 LLM 正被集成到 AI agents 中，这些智能体能够执行规划、研究或编写工作流等多步任务。

Link to this sectionClaude LLM 的演进#

Anthropic 的 Claude 模型在每次发布后，其速度、推理能力和整体性能都在稳步提升。以下是 Claude 系列在迈向 Claude 4 过程中的简要演进概述：

Claude Instant 1.2、2 和 2.1：这些早期模型专为低成本、快速响应而设计。Claude 2.1 引入了对 200,000 token 上下文的支持（意味着它可以在单次交互中处理长输入，例如完整的文字记录）。
Claude 3 Haiku 和 3.5 Haiku：它们是针对速度和效率进行优化的轻量级模型，非常适合总结、基础聊天和客户支持等实时应用。
Claude 3 Sonnet 和 3.5 Sonnet：两者均为均衡型模型，在不牺牲速度的前提下提供了强大的性能。支持大提示词和长输出，非常适用于各种商业应用场景。
Claude 3 Opus：这是一款专为复杂、重推理任务设计的高性能模型。尽管速度较慢且资源消耗较高，但 Opus 提供了详尽、准确的回答，非常适合研究、战略规划和创意工作。
Claude 3.7 Sonnet：它是 Claude 4 发布前最先进的 Claude 模型。它引入了扩展思考模式以获得更深入的响应，提高了在较长任务中的一致性，非常适合高级编程、详细分析和长篇写作。

Link to this section了解 Anthropic 的 Claude 4#

Claude 4 改变了人们对大语言模型如何处理复杂、长时间运行任务的认知。Anthropic 最新的 Claude Opus 4 和 Claude Sonnet 4 模型不再仅仅关注速度或输出质量，而是旨在支持持续推理、改进上下文处理和提供更可靠的性能。

例如，Claude 4 模型在思考时更加审慎，避免使用捷径或技巧来完成任务。事实上，与 Sonnet 3.7 等早期版本相比，它们采取这类做法的可能性降低了 65%。

这两个模型的另一个关键特性是扩展思考，这允许它们在响应之前暂停并考虑多个步骤。这使得 Claude 4 在需要深思熟虑、循序渐进推理的情况下特别有用，例如处理分支任务、规划多阶段流程或编写结构化内容。

此外，Claude Opus 4 引入了改进的记忆功能。当开发人员提供本地文件访问权限时，该模型能够创建并引用持久性记忆文件，以便在不同会话中跟踪关键细节。

这两个模型也都构建为可以与外部工具协同工作。Claude 4 可以通过一种名为模型上下文协议 (MCP) 的概念连接到 API 和文件系统。这使开发人员能够创建 AI 系统，从而生成响应、与现实世界数据交互、运行后台任务或将自定义工具用作工作流的一部分。

Link to this sectionClaude 4 AI 模型的应用#

代理式 AI 和模型上下文协议等概念是 Claude 4 应用方式的核心。这些模型不仅是为了响应提示词而构建的，它们还旨在承担更复杂的任务，连接工具，并作为更大系统的一部分进行运作。

接下来，让我们探讨 Claude 4 如何在编码和图像分析等应用中使用。

Link to this section探索 Claude Opus 4 的编码能力#

编写简洁、可靠的代码有时是一项挑战，即使对于经验丰富的开发人员也是如此。这就是为什么结对编程（一人编写，另一人审查）多年来一直是一种受信任的方法。有了像 Claude Opus 4 这样的 AI 模型，开发人员现在可以从智能助手那里获得类似的支持。

Claude Opus 4 旨在处理复杂的编码项目。它在诸如 SWE-bench（测试 AI 模型修复开源代码中实际 Bug 的能力）和 Terminal-bench（测试其在命令行环境中的任务处理能力）等基准测试中表现出色。有趣的是，Claude Opus 4 已经在通过 Claude Code 使用在 VS Code 等工具中，它可以协助编写新函数、建议编辑或修复 Bug 等任务。

VS Code 中的 Claude Code 界面

图 3. VS Code 上的 Claude Code 界面。

Link to this sectionClaude 4 的视觉能力#

Claude 4 不仅擅长处理文本和代码，还能分析图像。它基于之前的模型构建，现已具备更强的视觉能力，使其能够结合书面内容来分析和解释图像。它还支持同时处理多张图像，这在比较设计、阅读图表、总结示意图或审查 UI 模型等任务中非常方便。

虽然 Claude 在解释视觉信息方面表现良好，但它也有局限性：它无法识别人脸，在处理精确布局（如国际象棋棋盘或时钟）时可能会遇到困难，且并非为医疗诊断而设计。对于任何关键的应用场景，最好二次核对它的输出。

在合理使用的情况下，Claude 4 的图像能力可以支持开发人员调试视觉界面、教育工作者创建学习材料以及研究人员审查视觉数据，从而使其成为结合文本和图像的多模态任务的有力工具。

Link to this section如何尝试 Anthropic Claude 4 的功能#

以下是几种尝试 Claude 4 的方法：

Claude.ai：你可以直接在 Anthropic 的网站上使用 Claude。基础账户可使用 Sonnet 4，而 Opus 4 需要通过 Pro 层级获取访问权限。
Anthropic API：开发人员可以使用 API 将 Claude 集成到他们自己的工具或服务中。Sonnet 和 Opus 两个模型均受支持，且设置需要 API key。
GitHub Copilot：Claude 4 可在 GitHub Copilot Chat 中使用。付费用户可以使用 Sonnet 4，而对 Opus 4 的访问权限取决于你的特定方案。这些模型可以在 GitHub 网站、VS Code 和移动端应用程序内使用。

GitHub Copilot 上的 Claude 4 模型