视觉 AI

OpenAI 最新更新：Canvas、视觉微调等

加入我们，深入了解 OpenAI 最近发布的 ChatGPT 更新。我们将探讨 Canvas、视觉功能微调以及最新的搜索功能。

ABAbirami Vina

4 min readNovember 7, 2024

继九月份我们探讨了 OpenAI 的 o1 模型（旨在提升推理能力）之后，ChatGPT 又新增了许多令人兴奋的功能。其中一些发布是面向开发者的，另一些则是为了优化用户体验。总的来说，每一次升级都让与 ChatGPT 的交互变得更加直观和高效。

Updates like Canvas, designed for collaborative writing and coding, and fine-tuning for vision capabilities that improves how ChatGPT works with images, have sparked a lot of interest, encouraging users to explore more creative possibilities. Meanwhile, technical upgrades, like new APIs and fairness test reports, address aspects like model integration, and ethical AI practices. Let’s dive in and get a better understanding of the latest ChatGPT features from OpenAI!

Link to this sectionOpenAI Canvas 功能概述#

Canvas 是自 ChatGPT 发布以来对其用户界面 (UI) 的首次重大更新。它是一种采用双屏布局的新界面，左侧边栏显示提示词，右侧窗口显示响应内容。新的 UI 取消了以往类聊天式的单屏结构，改为双屏布局，这更适合多任务处理，从而提高工作效率。

Canvas 为 ChatGPT 带来了 UI 更新

图 1. Canvas 为 ChatGPT 带来了 UI 更新。

在引入 Canvas 之前，在 ChatGPT 上处理长篇文档意味着需要频繁地上下滚动。在新的布局中，提示词显示在左侧边栏，而文本文档或代码片段占据了屏幕的大部分区域。如果有需要，你甚至可以自定义左侧边栏和输出屏幕的大小。此外，你可以选择部分文本或一段代码，并仅对该特定部分进行编辑，而无需更改整个文档。

使用 Canvas 编辑特定文本片段

图 2. 使用 Canvas 编辑特定文本段落。

如果你使用 Canvas，会发现 ChatGPT 界面上并没有专门的按钮或开关来开启它。相反，当你使用 GPT-4o 模型时，如果系统检测到你正在进行编辑、写作或编码，Canvas 会自动开启。对于简单的提示，它保持不活动状态。如果你想手动开启，可以使用“打开 Canvas”或“给我 Canvas 布局”之类的提示词。

目前，Canvas 处于测试阶段，仅适用于 GPT-4o。不过，OpenAI 表示，当 Canvas 脱离测试阶段后，将对所有免费用户开放。

Link to this sectionChatGPT 的 API 更新#

OpenAI 发布了三项新的 ChatGPT API 更新，旨在提高效率、可扩展性和多功能性。让我们仔细看看这些更新。

Link to this section模型蒸馏#

Using the Model Distillation feature through the OpenAI APIs, developers can use the outputs of advanced models like GPT-4o or o1-preview to enhance the performance of smaller, cost-efficient models like GPT-4o mini. Model distillation is a process that involves training smaller models to mimic the behavior of more advanced ones, making them more efficient for specific tasks.

Before this feature was introduced, developers had to manually coordinate a variety of tasks using different tools. These tasks included generating datasets, measuring model performance, and fine-tuning models, which often made the process complex and error-prone. The Model Distillation update lets developers use Stored Completions, a tool that lets them automatically generate datasets by capturing and storing the input-output pairs produced by advanced models through the API.

模型蒸馏的另一个功能 Evals（目前处于测试阶段）有助于衡量模型在特定任务上的表现，而无需创建自定义评估脚本或使用单独的工具。利用通过“存储补全”生成的数据集，并使用 Evals 评估性能，开发者可以微调他们自己的自定义 GPT 模型。

使用 Evals 衡量模型性能

图 3. 你可以使用 Evals 来衡量模型性能。

Link to this section提示词缓存#

Oftentimes when building AI applications, especially chatbots, the same context (the background information or previous conversation history needed to understand the current request) will be used repeatedly for multiple API calls. Prompt Caching makes it possible for developers to reuse recently used input tokens (segments of text that the model processes to understand the prompt and generate a response), helping to reduce cost and latency.

自 10 月 1 日起，OpenAI 已自动为其模型（如 GPT-4o、GPT-4o mini、o1-preview 和 o1-mini）应用了提示词缓存。这意味着当开发者通过 API 与长提示词（超过 1,024 个 token）的模型进行交互时，系统会保存已处理过的部分。

这样，如果再次使用相同或相似的提示词，它就可以跳过重新计算这些部分。系统会自动缓存之前遇到的提示词中最长的部分，从 1,024 个 token 开始，并随着提示词变长以 128 个 token 为单位进行块状添加。

Link to this section实时 API#

创建一个语音助手通常需要将音频转为文本，处理文本，然后再将其转换回音频以播放响应。OpenAI 的 Realtime API 旨在通过单一 API 请求来处理整个过程。通过简化流程，该 API 能够实现与人工智能的实时对话。

例如，与实时 API 集成的语音助手可以根据用户的请求执行特定的操作，如下单或查找信息。该 API 使语音助手响应更迅速，并且能够快速适应用户的需求。实时 API 于 10 月 1 日通过公共测试版发布，提供六种语音。10 月 30 日，又增加了五种语音，总共提供十一种语音。

使用 Realtime API 进行新语言对话练习

图 4. 使用实时 API 练习新语言对话的示例。

Link to this section针对视觉任务微调 ChatGPT#

最初，GPT-4o 视觉语言模型只能使用纯文本数据集进行微调和定制。现在，随着视觉微调 API 的发布，开发者可以使用图像数据集来训练和定制 GPT-4o。自发布以来，视觉微调已成为开发者和计算机视觉工程师中的热门话题。

为了微调 GPT-4o 的视觉能力，开发者可以使用从 100 张到 50,000 张不等的图像数据集。在确保数据集符合 OpenAI 要求的格式后，即可将其上传到 OpenAI 平台，从而针对特定应用对模型进行微调。

例如，自动化公司 Automat 使用了一组屏幕截图数据集来训练 GPT-4o，使其能够根据描述识别屏幕上的 UI 元素。这有助于简化机器人流程自动化 (RPA)，使机器人更容易与用户界面交互。模型不再依赖固定的坐标或复杂的选择器规则，而是可以根据简单的描述识别 UI 元素，使自动化设置更具适应性，且在界面更改时更易于维护。

使用微调后的 GPT-4o 模型检测 UI 元素

图 5. 使用微调版 GPT-4o 模型来检测 UI 元素。

Link to this sectionChatGPT 公平性和偏见检测#

Ethical concerns surrounding AI applications are a prominent topic of conversation as AI becomes more and more advanced. Because ChatGPT’s responses are based on user-provided prompts and data available on the Internet, it can be challenging to fine-tune its language to be responsible all the time. Reports state that ChatGPT’s answers are biased on name, gender, and race. To address this issue, OpenAI’s in-house team conducted a first-person fairness test.

名字通常带有关于我们文化和地理因素的细微线索。在大多数情况下，ChatGPT 会忽略名字中的这些细微线索。然而，在某些情况下，反映种族或文化的名字会导致 ChatGPT 给出不同的回答，其中约 1% 的回答反映了有害语言。对于语言模型来说，消除偏见和有害语言是一项艰巨的任务。不过，通过公开分享这些发现并承认模型的局限性，OpenAI 能够帮助用户改进他们的提示词，从而获得更中立、无偏见的回答。

由于用户姓名不同导致 ChatGPT 产生不同回答的示例

图 6. 因用户名字导致的回答差异示例。

Link to this section了解 ChatGPT 搜索#

当 ChatGPT 最初推出时，AI 社区就它是否能取代传统网络浏览进行了讨论。现在，许多用户已经开始使用 ChatGPT 而不是 Google 搜索。

OpenAI 的新更新——搜索功能，将这一点更进一步。通过搜索，ChatGPT 可以生成最新响应并包含相关来源的链接。截至 10 月 31 日，搜索功能已向所有 ChatGPT Plus 和 Team 用户开放，使 ChatGPT 的功能更像是一个 AI 驱动的搜索引擎。

使用 ChatGPT 新搜索功能的示例

图 7. 使用 ChatGPT 新搜索功能的示例。

Link to this section前路展望#

ChatGPT 最近的更新专注于使 AI 更加实用、灵活和公平。新的 Canvas 功能帮助用户更高效地工作，而视觉微调则允许开发者定制模型以更好地处理视觉任务。解决公平性和减少偏见也是关键优先事项，确保 AI 能为每个人带来良好的服务，无论他们是谁。无论你是正在微调模型的开发者，还是只是在使用最新功能，ChatGPT 都在不断进化以满足广泛的需求。凭借实时功能、视觉集成以及对负责任使用的关注，这些更新正在为大家构建一个更值得信赖和可靠的 AI 体验。

访问我们的 GitHub 存储库并加入我们的社区，探索更多关于 AI 的信息。了解更多关于 AI 在自动驾驶和医疗保健领域的应用。

Explore solutions

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

OpenAI 最新更新：Canvas、视觉微调等

Link to this sectionOpenAI Canvas 功能概述#

Link to this sectionChatGPT 的 API 更新#

Link to this section模型蒸馏#

Link to this section提示词缓存#

Link to this section实时 API#

Link to this section针对视觉任务微调 ChatGPT#

Link to this sectionChatGPT 公平性和偏见检测#

Link to this section了解 ChatGPT 搜索#

Link to this section前路展望#

Explore solutions

机器人技术中的 AI

物流中的 AI

零售业 AI

医疗保健中的 AI

制造业中的 AI

汽车中的 AI

农业中的 AI

机器人技术中的 AI

物流中的 AI

零售业 AI

医疗保健中的 AI

制造业中的 AI

汽车中的 AI

农业中的 AI

机器人技术中的 AI

物流中的 AI

零售业 AI

医疗保健中的 AI

制造业中的 AI

汽车中的 AI

农业中的 AI

让我们一起构建 AI 的未来！