敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024

OpenAI 最新动态:Canvas、Vision Fine-Tuning 及更多

Abirami Vina

4 分钟阅读

2024年11月7日

加入我们,仔细研究 OpenAI 发布的最新 ChatGPT 更新。我们将探索 Canvas、视觉功能的微调以及最新的搜索功能。

自从我们上次在 9 月份研究 OpenAI 的 o1 模型(旨在改进推理)以来,ChatGPT 已经添加了许多新的和令人兴奋的功能。其中一些版本是面向开发人员的,而另一些版本旨在改进用户体验。总的来说,每次升级都有助于使与 ChatGPT 的交互更加直观和有效。

诸如专为协作写作和编码而设计的 Canvas 以及用于视觉能力微调等更新,改进了 ChatGPT 处理图像的方式,激发了人们的极大兴趣,鼓励用户探索更多创造性的可能性。同时,诸如新 API 和公平性测试报告等技术升级解决了模型集成道德 AI实践等方面的问题。让我们深入了解并更好地了解 OpenAI 的最新 ChatGPT 功能!

OpenAI 画布功能概述

Canvas 是 ChatGPT 发布以来对其用户界面 (UI) 的首次重大更新。它是一个具有双屏幕布局的新界面,左侧边栏显示提示,右侧窗口显示响应。新的 UI 摒弃了类似聊天的单屏幕结构的常用工作流程,转而采用适合多任务处理的双屏幕布局,从而提高工作效率。

图 1. Canvas 为 ChatGPT 带来 UI 更新。

在 Canvas 推出之前,在 ChatGPT 上处理长篇文档意味着需要大量上下滚动。在新的布局中,提示显示在左侧边栏中,文本文件或代码片段占据屏幕的大部分区域。如果需要,您甚至可以自定义左侧边栏和输出屏幕的大小。此外,您可以选择部分文本或代码段,并在不更改整个文档的情况下编辑特定部分。

图 2. 使用 Canvas 编辑文本的特定部分。

如果您使用 Canvas,您会注意到 ChatGPT 界面上没有打开它的特定按钮或开关。相反,当您使用 GPT-4o 模型时,如果它检测到您正在编辑写作编码,Canvas 会自动打开。对于更简单的提示,它会保持不活动状态。如果您想手动打开它,可以使用“打开 Canvas”或“获取 Canvas 布局”等提示。

目前,Canvas 仍处于 Beta 测试阶段,仅适用于 GPT-4o。但是,OpenAI 已经提到,当 Canvas 退出 Beta 测试阶段后,将向所有免费用户开放。

ChatGPT 的 API 更新

OpenAI 发布了三项新的 ChatGPT API 更新,旨在提高效率、可扩展性和通用性。 让我们仔细看看这些更新。

模型蒸馏

通过 OpenAI API 使用 模型蒸馏 功能,开发者可以使用 GPT-4o 或 o1-preview 等 高级模型 的输出来增强 性能 较小、成本效益高的模型(如 GPT-4o mini)。模型蒸馏是一个 训练 较小模型以模仿更高级模型行为的过程,从而提高它们在 特定任务 中的效率。

在此功能推出之前,开发人员必须使用不同的工具手动协调各种任务。这些任务包括生成数据集、测量模型性能微调模型,这通常会使过程变得复杂且容易出错。模型蒸馏更新允许开发人员使用存储完成,这是一种工具,允许他们通过 API 捕获和存储高级模型生成的输入-输出对来自动生成数据集

模型蒸馏的另一个特性是 Evals(目前处于测试阶段),它可以帮助衡量模型在特定任务上的表现,而无需创建自定义评估脚本或使用单独的工具。通过使用使用存储完成生成的数据集和使用 Evals 评估性能,开发人员可以微调他们自己的自定义 GPT 模型。

图 3. 您可以使用 Evals 来衡量模型性能。

Prompt 缓存

通常,在构建 AI应用程序,特别是 聊天机器人时,相同的上下文(理解当前请求所需的背景信息或之前的对话历史)会多次用于多个API调用。Prompt Caching 使开发人员可以重用最近使用的 输入 tokens(模型处理以理解提示并生成响应的文本片段),从而有助于降低成本和延迟。

从 10 月 1 日起,OpenAI 已自动将 Prompt Caching 应用于其模型,如 GPT-4o、GPT-4o mini、o1-preview 和 o1-mini。这意味着当开发人员使用 API 与具有长 prompt(超过 1,024 个 tokens)的模型交互时,系统会保存已处理的部分。 

这样,如果再次使用相同或相似的提示,它可以跳过重新计算这些部分。系统会自动缓存之前遇到的提示的最长部分,从 1,024 个 token 开始,并随着提示变长而以 128 个 token 的块添加。

实时 API

创建一个语音助手通常需要将音频转录为文本,处理文本,然后将其转换回音频以播放响应。OpenAI 的 Realtime API 旨在通过单个 API 请求处理整个过程。通过简化该过程,该 API 能够与 AI 进行实时对话。 

例如,与 Realtime API 集成的语音助手可以根据用户请求执行特定操作,例如下单查找信息。该 API 使语音助手更具响应能力,并能够快速适应用户的需求。Realtime API 于 10 月 1 日通过公开测试版发布,包含六种声音。10 月 30 日,又添加了五种声音,总共有十一种可用声音。

图 4. 使用 Realtime API 练习新语言对话的示例。

针对视觉任务微调 ChatGPT

最初,GPT-4o 视觉语言模型只能使用纯文本数据集进行微调和定制。现在,随着视觉微调 API 的发布,开发人员可以使用图像数据集训练和定制 GPT-4o。自发布以来,视觉微调已成为开发人员和计算机视觉工程师的主要关注点。

为了微调 GPT-4o 的视觉能力,开发人员可以使用图像数据集,其范围从 100 张图像到 50,000 张图像不等。在确保数据集与 OpenAI 要求的格式匹配后,可以将其上传到 Openai 平台,并且可以针对特定应用对模型进行微调。 

例如,自动化公司 Automat 使用屏幕截图数据集来训练 GPT-4o,使其能够根据描述识别屏幕上的 UI 元素。这有助于简化机器人流程自动化 (RPA),使机器人更容易与用户界面交互。该模型无需依赖固定的坐标或复杂的选择器规则,而是可以根据简单的描述识别 UI 元素,从而使自动化设置更具适应性,并且在界面更改时更易于维护。

Fig 5. 使用 GPT-4o 模型的微调版本来检测 UI 元素。

ChatGPT 的公平性和偏差检测

随着人工智能变得越来越先进,围绕人工智能应用伦理问题成为了一个突出的讨论话题。由于ChatGPT的回答是基于用户提供的提示和互联网上可用的数据,因此始终对其语言进行负责任的微调可能具有挑战性。有报告指出,ChatGPT的答案在姓名、性别和种族方面存在偏见。为了解决这个问题,OpenAI的内部团队进行了第一人称公平性测试。

名字通常带有关于我们的文化和地理因素的微妙线索。在大多数情况下,ChatGPT 会忽略名字中的微妙线索。但是,在某些情况下,反映种族或文化的名字会导致 ChatGPT 产生不同的反应,其中约 1% 的反应反映了有害语言。消除偏见和有害语言对于语言模型来说是一项具有挑战性的任务。但是,通过公开分享这些发现并承认模型的局限性,OpenAI 帮助用户改进他们的提示,以获得更中立、更公正的答案。 

图 6. 由于用户姓名不同而导致的不同响应示例。

了解 ChatGPT 搜索

当 ChatGPT 首次推出时,AI 社区曾讨论过它是否可以取代传统的网络浏览。现在,许多用户正在使用 ChatGPT 代替 Google 搜索。 

OpenAI 的新更新,搜索功能,更进一步。通过搜索,ChatGPT 生成最新的回复,并包含相关来源的链接。截至 10 月 31 日,搜索功能已向所有 ChatGPT Plus 和团队用户开放,使 ChatGPT 的功能更像是一个 AI 驱动的搜索引擎。

图 7. 使用 ChatGPT 新的搜索功能示例。

前进的道路

ChatGPT 最近的更新侧重于使 AI 更加有用、灵活和公平。 新的 Canvas 功能可帮助用户更高效地工作,而视觉微调使开发人员可以自定义模型,以更好地处理视觉任务。 解决公平性问题和减少偏见也是关键优先事项,确保 AI 能够很好地为每个人服务,无论他们是谁。 无论您是微调模型的开发人员,还是只是使用最新功能,ChatGPT 都在不断发展,以满足广泛的需求。 凭借实时功能、视觉集成和对负责任使用的关注,这些更新为每个人构建了更值得信赖和可靠的 AI 体验。

访问我们的GitHub 存储库并加入我们的社区,了解更多关于 AI 的信息。了解更多关于 AI 在自动驾驶医疗保健中的应用。

让我们一起构建人工智能的未来!

开启您的机器学习未来之旅

免费开始
链接已复制到剪贴板