深圳Yolo 视觉
深圳
立即加入

OpenAI 最新动态:Canvas、Vision Fine-Tuning 及更多

Abirami Vina

4 分钟阅读

2024年11月7日

请加入我们的行列,与我们一起仔细了解 OpenAI 最近发布的ChatGPT 更新。我们将探讨画布、视觉功能微调和最新的搜索功能。

在我们上次于九月份了解了OpenAI 的 o1 模型(旨在改进推理)之后,ChatGPT 又新增了许多令人兴奋的功能。其中一些版本面向开发者,另一些则旨在改善用户体验。总的来说,每次升级都有助于使ChatGPT 的交互更直观、更有效。

诸如专为协作写作和编码而设计的 Canvas,以及改善ChatGPT 图像处理方式的视觉功能 微调等更新引发了广泛的兴趣,鼓励用户探索更多创造性的可能性。同时,技术升级,如新的应用程序接口和公平性测试报告,解决了模型集成人工智能道德 实践等方面的问题。让我们深入了解 OpenAI 最新的ChatGPT 功能!

OpenAI 画布功能概述

Canvas 是ChatGPT用户界面 (UI) 自发布以来的首次重大更新。新界面采用双屏布局,提示位于左侧边栏,回复位于右侧窗口。新的用户界面摒弃了聊天式单屏结构的常规工作流程,转而采用适合多任务处理的双屏布局,以提高工作效率。

图 1.Canvas 为ChatGPT 带来用户界面更新。

在引入 Canvas 之前,在ChatGPT 上处理长文档意味着需要上下滚动很多页面。在新布局中,提示显示在左侧边栏,文本文档或代码片段占据了屏幕的大部分。如果需要,你甚至可以自定义左侧边栏和输出屏幕的大小。此外,你还可以选择部分文本或代码片段,在不修改整个文档的情况下编辑特定部分。

图 2. 使用 Canvas 编辑文本的特定部分。

如果您使用 Canvas,您会发现在ChatGPT 界面上没有特定的按钮或切换键来打开它。相反,在使用 GPT-4o 模型时,如果检测到您正在编辑写作编码,Canvas 就会自动打开。对于较简单的提示,它则保持不活动状态。如果要手动打开,可以使用 "打开画布 "或 "给我画布布局 "等提示。

目前,Canvas 仍处于 Beta 测试阶段,仅适用于 GPT-4o。但是,OpenAI 已经提到,当 Canvas 退出 Beta 测试阶段后,将向所有免费用户开放。

ChatGPT的应用程序接口更新

OpenAI 发布了三个新的ChatGPT API 更新,旨在提高效率、可扩展性和通用性。让我们来详细了解一下这些更新。

模型蒸馏

通过 OpenAI API 使用 模型蒸馏 功能,开发者可以使用 GPT-4o 或 o1-preview 等 高级模型 的输出来增强 性能 较小、成本效益高的模型(如 GPT-4o mini)。模型蒸馏是一个 训练 较小模型以模仿更高级模型行为的过程,从而提高它们在 特定任务 中的效率。

在此功能推出之前,开发人员必须使用不同的工具手动协调各种任务。这些任务包括生成数据集、测量模型性能微调模型,这通常会使过程变得复杂且容易出错。模型蒸馏更新允许开发人员使用存储完成,这是一种工具,允许他们通过 API 捕获和存储高级模型生成的输入-输出对来自动生成数据集

模型蒸馏的另一个特性是 Evals(目前处于测试阶段),它可以帮助衡量模型在特定任务上的表现,而无需创建自定义评估脚本或使用单独的工具。通过使用使用存储完成生成的数据集和使用 Evals 评估性能,开发人员可以微调他们自己的自定义 GPT 模型。

图 3. 您可以使用 Evals 来衡量模型性能。

Prompt 缓存

通常,在构建 AI应用程序,特别是 聊天机器人时,相同的上下文(理解当前请求所需的背景信息或之前的对话历史)会多次用于多个API调用。Prompt Caching 使开发人员可以重用最近使用的 输入 tokens(模型处理以理解提示并生成响应的文本片段),从而有助于降低成本和延迟。

从 10 月 1 日起,OpenAI 已自动将 Prompt Caching 应用于其模型,如 GPT-4o、GPT-4o mini、o1-preview 和 o1-mini。这意味着当开发人员使用 API 与具有长 prompt(超过 1,024 个 tokens)的模型交互时,系统会保存已处理的部分。 

这样,如果再次使用相同或相似的提示,它可以跳过重新计算这些部分。系统会自动缓存之前遇到的提示的最长部分,从 1,024 个 token 开始,并随着提示变长而以 128 个 token 的块添加。

实时 API

创建一个语音助手通常需要将音频转录为文本,处理文本,然后将其转换回音频以播放响应。OpenAI 的 Realtime API 旨在通过单个 API 请求处理整个过程。通过简化该过程,该 API 能够与 AI 进行实时对话。 

例如,与 Realtime API 集成的语音助手可以根据用户请求执行特定操作,例如下单查找信息。该 API 使语音助手更具响应能力,并能够快速适应用户的需求。Realtime API 于 10 月 1 日通过公开测试版发布,包含六种声音。10 月 30 日,又添加了五种声音,总共有十一种可用声音。

图 4. 使用 Realtime API 练习新语言对话的示例。

针对视觉任务微调ChatGPT

最初,GPT-4o 视觉语言模型只能使用纯文本数据集进行微调和定制。现在,随着视觉微调 API 的发布,开发人员可以使用图像数据集训练和定制 GPT-4o。自发布以来,视觉微调已成为开发人员和计算机视觉工程师的主要关注点。

为了微调 GPT-4o 的视觉能力,开发人员可以使用图像数据集,其范围从 100 张图像到 50,000 张图像不等。在确保数据集与 OpenAI 要求的格式匹配后,可以将其上传到 Openai 平台,并且可以针对特定应用对模型进行微调。 

例如,自动化公司 Automat 使用屏幕截图数据集来训练 GPT-4o,使其能够根据描述识别屏幕上的 UI 元素。这有助于简化机器人流程自动化 (RPA),使机器人更容易与用户界面交互。该模型无需依赖固定的坐标或复杂的选择器规则,而是可以根据简单的描述识别 UI 元素,从而使自动化设置更具适应性,并且在界面更改时更易于维护。

图 5.使用微调版 GPT-4o 模型detect 用户界面元素。

ChatGPT 公平性和偏见检测

随着人工智能变得越来越先进,围绕人工智能应用伦理问题也成为一个突出的话题。由于ChatGPT的回答是基于用户提供的提示和互联网上的数据,因此要对其语言进行微调,使其始终负责任,是一项具有挑战性的工作。有报告称,ChatGPT的回答在姓名、性别和种族方面存在偏见。为了解决这个问题,OpenAI 的内部团队进行了第一人称公平性测试。

名字通常蕴含着有关我们的文化和地理因素的微妙线索。在大多数情况下,ChatGPT 会忽略名字中的微妙暗示。然而,在某些情况下,反映种族或文化的名称会导致ChatGPT 作出不同的反应,其中约有 1% 反映了有害语言。对于语言模型来说,消除偏见和有害语言是一项具有挑战性的任务。然而,通过公开分享这些发现并承认模型的局限性,OpenAI 可以帮助用户改进他们的提示,从而获得更加中立、无偏见的答案。 

图 6. 由于用户姓名不同而导致的不同响应示例。

了解ChatGPT 搜索

在ChatGPT 推出之初,人工智能社区曾讨论过它能否取代传统的网页浏览。现在,很多用户都在用 ChatGPT 代替Google 搜索。 

OpenAI 的新升级功能 "搜索 "在此基础上更进一步。有了搜索功能,ChatGPT 可以生成最新回复,并包含相关来源的链接。自 10 月 31 日起,所有ChatGPT Plus 和 Team 用户均可使用搜索功能,这使得ChatGPT 的功能更像一个人工智能驱动的搜索引擎。

图 7.使用ChatGPT新搜索功能的示例。

前进的道路

ChatGPT 最近的更新重点是让人工智能更有用、更灵活、更公平。新的 "画布"(Canvas)功能可以帮助用户更高效地工作,而视觉微调功能则允许开发人员自定义模型,以便更好地处理视觉任务。解决公平性和减少偏见也是关键优先事项,以确保人工智能对每个人都能发挥良好的作用,无论他们是谁。无论您是正在对模型进行微调的开发人员,还是正在使用最新功能的开发人员,ChatGPT 都在不断发展,以满足广泛的需求。凭借实时功能、可视化集成以及对负责任使用的关注,这些更新将为每个人打造更可信、更可靠的人工智能体验。

访问我们的GitHub 存储库并加入我们的社区,了解更多关于 AI 的信息。了解更多关于 AI 在自动驾驶医疗保健中的应用。

让我们一起构建人工智能的未来!

开启您的机器学习未来之旅

免费开始