OpenAI 的 GPT-4o 展示了人工智能的潜力
探索 OpenAI 新推出的 GPT-4o,其具备先进的人工智能和逼真的交互功能,改变了我们与技术沟通的方式。探索其突破性的功能!

2024 年 5 月 13 日星期一,OpenAI 宣布推出其新的旗舰模型 GPT-4o,其中“o”代表“omni”(全能)。GPT-4o 是一款先进的多模态人工智能模型,用于实时文本、音频和视觉交互,提供更快的处理速度、多语言支持和增强的安全性。
它带来了前所未有的生成式人工智能能力。在 ChatGPT 对话优势的基础上,GPT-4o 的功能标志着人们对人工智能的认知迈出了重要的一步。我们现在可以像与真人交流一样与 GPT-4o 对话。让我们深入了解一下 GPT-4o 的具体功能吧!
Link to this section认识 GPT-4o#
在 OpenAI 的春季发布会上,官方透露 GPT-4o 虽然与 GPT-4 一样智能,但处理数据的速度更快,并且能更好地处理文本、视觉和音频。与以往侧重于提高模型智能水平的发布不同,这次发布特别考虑了让普通用户更容易使用人工智能的需求。

图 1. OpenAI 的春季发布会
去年年底发布的 ChatGPT 语音模式需要三个不同的模型协同工作,才能将语音输入转录、理解并生成书面回复,最后将文本转换为语音,以便用户听到回复。该模式存在延迟问题,听起来不太自然。GPT-4o 可以原生一次性处理文本、视觉和音频,让用户感觉就像在进行一场自然的对话。
此外,与语音模式不同的是,你现在可以在 GPT-4o 说话时打断它,它会像真人一样做出反应。它会停下来倾听,然后根据你说的话给出实时回应。它还能通过声音表达情感,并理解你的语调。
Link to this section令人兴奋的 GPT-4o 功能#
GPT-4o 的模型评估展示了它有多先进。最有趣的结果之一是,与 Whisper-v3 相比,GPT-4o 在所有语言中都大大提高了语音识别能力,特别是在那些不太常用的语言中。
音频 ASR(自动语音识别)性能衡量的是模型将口语转录为文本的准确程度。GPT-4o 的性能通过词错误率 (WER) 来追踪,该指标显示了转录错误的单词百分比(WER 越低意味着质量越好)。下表展示了 GPT-4o 在各个地区的 WER 较低,证明了其在改善资源匮乏语言的语音识别方面的有效性。

图 2. GPT-4o 在多种语言中具有卓越的语音识别能力。
以下是 GPT-4o 的更多独特功能:
- 更快 - 它的速度是 GPT-4 Turbo 的两倍。它可以在 232 毫秒内响应音频输入,这与人类对话的响应时间相似。
- 具有成本效益 - GPT-4o 的 API 版本比 GPT-4 Turbo 便宜 50%。
- 记忆力 - GPT-4o 能够在不同的对话中保持感知能力。它可以记住你在不同聊天中所谈论的内容。
- 多语言 - GPT-4o 经过训练,在 50 种不同语言中提高了速度和质量。
Link to this sectionGPT-4o 能做什么的示例#
你现在可以在手机上打开 GPT-4o,开启摄像头,然后像对待朋友一样请 GPT-4o 根据你的面部表情猜测你的心情。GPT-4o 可以通过摄像头看到你并进行回答。

图 3. GPT-4o 通过视频了解人类的心情。
你甚至可以通过视频向 GPT-4o 展示你正在书写的内容,从而用它来帮助你解决数学问题。或者,你可以共享屏幕,它能成为 Khan Academy 上的得力导师,让你指出几何学中三角形的不同部分,如下图所示。

图 4. GPT-4o 在 Khan Academy 担任导师。
除了帮助孩子学习数学,开发者还可以与 GPT-4o 对话来调试代码。这得益于桌面版 ChatGPT 应用的推出。如果你在使用桌面版 GPT-4o 语音应用时,通过 CTRL “C” 高亮并复制你的代码,它就能读取你的代码。或者,你可以用它来翻译讲不同语言的开发者之间的对话。
GPT-4o 的可能性似乎无穷无尽。OpenAI 最有趣的演示之一使用了两部手机,展示了 GPT-4o 与自身的不同实例交谈并一起唱歌。

图 5. 人工智能与人工智能交谈和唱歌。
Link to this sectionGPT-4o 的应用#
正如演示中所展示的那样,GPT-4o 可以让世界对视障人士更加友好。它可以帮助他们更安全、更独立地互动和四处走动。例如,用户可以打开视频并向 GPT-4o 展示街道景观。GPT-4o 可以实时提供环境描述,例如识别障碍物、阅读路标或引导他们前往特定地点。它甚至可以通过在出租车接近时提醒用户,来帮助他们打车。

图 6. GPT-4o 提醒出租车接近。
同样,GPT-4o 可以凭借其先进的功能改变各行各业。在零售业中,它可以提供实时辅助、回答查询并帮助客户在线上和线下找到产品,从而改善客户服务。假设你正看着一排货架上的产品,却挑不出你要找的那个,GPT-4o 可以为你提供帮助。
在医疗保健领域,GPT-4o 可以通过分析患者数据、根据症状建议可能的病症并提供治疗方案建议来辅助诊断。它还可以通过总结患者记录、快速访问医学文献,甚至为说不同语言的患者提供实时语言翻译来支持医疗专业人员。这仅仅是几个例子。GPT-4o 的应用通过提供量身定制的、具有上下文感知的辅助,并打破信息和交流的障碍,使日常生活变得更加轻松。
Link to this sectionGPT-4o 与模型安全#
就像之前的 GPT 版本影响了数亿人的生活一样,GPT-4o 很可能会在全球范围内与实时音频和视频进行交互,这使得安全性成为这些应用中的一个关键要素。OpenAI 在构建 GPT-4o 时一直非常小心,重点在于降低潜在风险。
为了确保安全性和可靠性,OpenAI 实施了严格的安全措施。这些措施包括过滤训练数据、在训练后优化模型行为,以及引入新的安全系统来管理语音输出。此外,GPT-4o 还经过了 70 多位社会心理学、偏见与公平性以及虚假信息等领域的外部专家的广泛测试。外部测试确保了任何由新功能引入或放大的风险都能被识别并解决。
为了保持高安全标准,OpenAI 将在未来几周内逐步发布 GPT-4o 的功能。分阶段推出可以让 OpenAI 监控性能、解决任何问题并收集用户反馈。采取谨慎的方法可以确保 GPT-4o 在提供先进功能的同时,保持最高的安全和道德使用标准。
Link to this section亲自尝试 GPT-4o#
GPT-4o 可免费使用。要尝试上述实时对话功能,你可以直接在手机上从 Google Play Store 或 Apple App Store 下载 ChatGPT app。
登录后,点击屏幕右上角的三个点,即可从显示的列表中选择 GPT-4o。进入启用 GPT-4o 的聊天界面后,点击屏幕左下角的加号,你将看到多个输入选项。在屏幕右下角,你会看到一个耳机图标。选择耳机图标后,系统会询问你是否想体验免提版本的 GPT-4o。同意后,你就可以开始尝试 GPT-4o,如下图所示。

图 7. 在 ChatGPT 移动应用上尝试 GPT-4o。
如果你想将 GPT-4o 的先进功能集成到你自己的项目中,它已作为 API 提供给开发者。它允许你将 GPT-4o 强大的语音识别、多语言支持和实时对话能力整合到你的应用程序中。通过使用 API,你可以增强用户体验、构建更智能的应用,并将尖端的人工智能技术带到不同的行业。
Link to this sectionGPT-4o:还不是完全像人类#
虽然 GPT-4o 比以前的人工智能模型先进得多,但必须记住 GPT-4o 也有其局限性。OpenAI 提到它有时会在说话时随机切换语言,从英语切换到法语。他们还观察到 GPT-4o 在语言之间的翻译不准确。随着越来越多的人试用该模型,我们将了解 GPT-4o 在哪些方面表现出色,以及哪些方面需要进一步改进。
Link to this section核心观点#
OpenAI 的 GPT-4o 以其先进的文本、视觉和音频处理能力开启了人工智能的新大门,提供了自然的、类人的交互。它在速度、成本效率和多语言支持方面表现出色。GPT-4o 是教育、无障碍服务和实时辅助的多功能工具。随着用户探索 GPT-4o 的功能,反馈将推动其不断演进。GPT-4o 证明了人工智能确实正在改变我们的世界,并成为我们日常生活的一部分。
探索我们的 GitHub repository 并加入我们的 community 以深入了解人工智能。访问我们的解决方案页面,看看人工智能如何改变制造业和农业等行业。






