视觉 AI

2024 年以生成式 AI 浪潮开启

盘点 2024 年第一季度的激动人心的 AI 创新。我们将涵盖 OpenAI 的 Sora AI、Neuralink 脑机芯片以及最新 LLM 等突破性成果。

ABAbirami Vina

6 min readApril 12, 2024

AI 社区似乎每天都在占据头条。2024 年的前几个月令人兴奋，充满了新的 AI 创新。从功能强大的大型语言模型到人脑植入物，2024 年正变得令人惊叹。

我们看到 AI 正在改变各个行业，使信息获取变得更加便捷，甚至正在迈出将人类思维与机器融合的第一步。让我们回顾一下 2024 年第一季度，深入了解 AI 在短短几个月内取得的进展。

Link to this sectionLLM 成为趋势#

大型语言模型（LLM）旨在基于海量文本数据理解、生成和处理人类语言，在 2024 年第一季度占据了中心舞台。许多大型科技公司发布了各自的 LLM 模型，每一款都有其独特的功能。GPT-3 等早期 LLM 的惊人成功激发了这一趋势。以下是 2024 年初一些最值得关注的 LLM 发布。

Link to this sectionAnthropic 的 Claude 3#

Anthropic 于 2024 年 3 月 14 日发布了 Claude 3。Claude 3 模型有三个版本：Opus、Sonnet 和 Haiku，分别服务于不同的市场和需求。Haiku 是速度最快的模型，针对快速、基础的响应进行了优化。Sonnet 在速度和智能之间取得了平衡，针对企业应用。Opus 是最先进的版本，提供了无与伦比的智能和推理能力，非常适合处理复杂任务并达到顶级基准测试标准。

Claude 3 拥有许多先进的功能和改进：

增强的多语言对话：提升了包括西班牙语、日语和法语在内的语言能力。
先进的视觉功能：能够处理各种视觉格式。
最小化拒绝：展现出更强的理解力，减少了不必要的拒绝，这意味着语境掌握能力得到了提升。
扩展的上下文窗口：它提供 200K 的上下文窗口，但能够根据客户需求处理超过 100 万 token 的输入。

显示 Claude 3 上下文感知能力与之前版本对比的图表

图 1. Claude 3 比之前的版本具有更强的上下文感知能力。

Link to this sectionDatabricks 的 DBRX#

Databricks DBRX 是 Databricks 于 2024 年 3 月 27 日发布的一款开源、通用 LLM。DBRX 在各种基准测试中表现出色，包括语言理解、编程和数学。它超越了其他成熟模型，同时体积比同类模型小约 40%。

将 DBRX 与其他模型进行比较

图 2. DBRX 与其他模型的比较。

DBRX 使用下一 token 预测技术并结合细粒度的混合专家（MoE）架构进行训练，这就是我们能看到其训练和推理性能显著提升的原因。其架构允许模型通过咨询一组多样化的专业子模型（“专家”）来更准确地预测序列中的下一个单词。这些子模型擅长处理不同类型的信息或任务。

Link to this sectionGoogle 的 Gemini 1.5#

Google 于 2024 年 2 月 15 日推出了 Gemini 1.5，这是一款计算高效的多模态 AI 模型，能够分析大量的文本、视频和音频数据。该最新模型在性能、效率和功能方面更为先进。Gemini 1.5 的一个关键特性是其在长上下文理解方面的突破。该模型能够稳定处理多达 100 万个 token。Gemini 1.5 的性能也归功于基于 MoE 的新架构。

比较流行 LLM 的上下文长度

图 3. 主流 LLM 上下文长度对比

以下是 Gemini 1.5 的一些最有趣的功能：

改进的数据处理：允许直接上传大型 PDF、代码仓库或长视频作为提示词。模型可以跨模态进行推理并输出文本。
多文件上传与查询：开发人员现在可以上传多个文件并进行提问。
可用于不同任务：它针对跨不同任务进行了优化，并在数学、科学、推理、多语言、视频理解和代码等领域表现出改进。

Link to this sectionAI 带来的惊人视觉效果#

2024 年第一季度揭晓了多款生成式 AI 模型，它们能够创造出如此逼真的视觉效果，以至于引发了关于社交媒体未来和 AI 进展的辩论。让我们深入探讨这些引发热议的模型。

Link to this sectionOpenAI 的 Sora#

ChatGPT 的创建者 OpenAI 于 2024 年 2 月 15 日宣布了一款名为 Sora 的尖端文本转视频深度学习模型。Sora 是一款文本转视频生成器，能够根据用户的文字提示生成长达一分钟、且具备高质量视觉效果的视频。

例如，看看下面这个提示词。

“一个精美的纸艺珊瑚礁世界，充满了色彩斑斓的鱼类和海洋生物。”

这里是输出视频中的一帧。

由 OpenAI Sora 生成的视频中的一帧

图 4. Sora 生成视频中的一帧。

Sora 的架构通过融合用于纹理生成的扩散模型和用于结构一致性的 Transformer 模型实现了这一点。到目前为止，Sora 的访问权限已开放给红队人员以及精选的视觉艺术家、设计师和电影制作人，以了解其风险并收集反馈。

Link to this sectionStability AI 的 Stable Diffusion 3#

Stability AI 于 2024 年 2 月 22 日宣布推出 Stable Diffusion 3，这是一款文本转图像生成模型。该模型融合了 diffusion transformer 架构和 flow matching 技术。他们尚未发布技术论文，但有几个关键特性值得关注。

由 Stable Diffusion 3 生成的一张巫师施展宇宙魔法的图片

图 5. 基于以下提示词生成的图像：“史诗动漫风格的艺术作品，一个巫师站在山顶，在夜晚向黑暗的天空施展宇宙魔法，魔法光芒形成了“Stable Diffusion 3”字样” (来源)

Stable Diffusion 的最新模型提供了更佳的性能、图像质量，并在创建包含多个主体的图像时具有更高的准确性。Stable Diffusion 3 还将提供从 8 亿到 80 亿参数不等的多种模型，允许用户根据自己对可扩展性和细节的具体需求进行选择。

Link to this sectionGoogle 的 Lumiere#

2024 年 1 月 23 日，Google 推出了 Lumiere，这是一款文本转视频扩散模型。Lumiere 使用了一种名为 Space-Time-U-Net（简称 STUNet）的架构。它可以帮助 Lumiere 理解物体在视频中的位置以及运动方式。通过这种方式，它能够生成流畅且栩栩如生的视频。

由 Google Lumiere 生成的熊猫弹奏尤克里里的视频中的一帧

图 6. 基于提示词“熊猫在家中弹尤克里里”生成的视频中的一帧。

凭借每段视频生成 80 帧的能力，Lumiere 正在突破界限，为 AI 领域的视频质量设定了新标准。以下是 Lumiere 的一些功能：

图像转视频：从一张图像和一个提示词开始，Lumiere 可以将图像制作成视频。
风格化生成：Lumiere 可以使用单一参考图像以特定风格创作视频。
动态静止画（Cinemagraphs）：Lumiere 可以为图像中的特定区域设置动画，从而创建动态场景，例如让特定的物体移动，而场景的其余部分保持静止。
视频修复（Video Inpainting）：它可以修改视频的局部，例如更改视频中人物的服饰或改变背景细节。

Link to this section未来已来#

2024 年初还带来了许多感觉像是出自科幻电影的 AI 创新。那些我们以前认为不可能的事情现在正在成为现实。随着以下发现，未来似乎不再那么遥远。

Link to this sectionElon Musk 的 Neuralink#

2024 年 1 月 29 日，Elon Musk 的 Neuralink 成功在一名人类患者身上植入了其无线脑机芯片。这是将人脑与计算机相连的重大一步。Elon Musk 分享说，Neuralink 的首款产品，名为“Telepathy”（心灵感应），正在研发中。

Neuralink 植入物

图 7. Neuralink 植入设备

其目标是使用户，特别是那些失去肢体功能的人，能够通过思想轻松控制设备。潜在的应用远不止于便利。Elon Musk 设想了一个瘫痪患者能够轻松交流的未来。

Link to this section迪士尼的 HoloTile Floor#

2024 年 1 月 18 日，华特迪士尼幻想工程（Walt Disney Imagineering）发布了 HoloTile Floor。它被称为世界上第一个多人、全向跑步机地面系统。

迪士尼幻想工程师 Lanny Smoot 在 HoloTile 地板上

图 8。迪士尼幻想工程师 Lanny Smoot 在他的最新发明 HoloTile 地板上摆姿势。

它可以像念力一样在任何人和物体下移动，以实现沉浸式的虚拟和增强现实体验。你可以在上面向任何方向行走并避免碰撞。迪士尼的 HoloTile Floor 也可以安装在舞台上，用于舞蹈和创意表演。

Link to this sectionApple 的 Vision Pro#

2024 年 2 月 2 日，Apple 万众期待的 Vision Pro 头显上市。它拥有一系列旨在重新定义虚拟和增强现实体验的功能与应用。Vision Pro 头显通过融合娱乐、生产力和空间计算来满足广泛的受众需求。Apple 自豪地宣布，超过 600 款从生产力工具到游戏和娱乐服务的应用已在 Vision Pro 发布时完成了优化。

Link to this sectionCognition 的 Devin#

2024 年 3 月 12 日，Cognition 发布了一款名为 Devin 的软件工程助手。Devin 是世界上首次尝试构建自动 AI 软件工程师的成果。与提供建议或完成特定任务的传统编码助手不同，Devin 旨在处理从最初构思到最终完成的整个软件开发项目。

它能够学习新技术、构建和部署完整的应用程序、查找并修复错误、训练自己的模型、为开源和生产代码库做贡献，甚至可以从 Upwork 等网站接取真实的开发工作。

将 Devin 与其他模型进行比较

图 9. Devin 与其他模型的比较。

Devin 在 SWE-bench 上进行了评估，这是一个具有挑战性的基准测试，要求智能体解决在 Django 和 scikit-learn 等开源项目中发现的现实世界 GitHub 问题。它成功端到端解决了 13.86% 的问题，而此前的最佳水平为 1.96%。

Link to this section荣誉提名#

近期发生了太多事情，无法在本文中一一列举。但以下是一些其他的荣誉提名。

NVIDIA 的 LATTE3D 于 2024 年 3 月 21 日发布，是一款文本转 3D AI 模型，可以即时根据文本提示创建 3D 表示。
由首席执行官 David Holz 预告的 Midjourney 全新文本转视频生成器已于 1 月开始训练，预计很快发布。
为推进 AI PC 革命，Lenovo 于 2024 年 1 月 8 日发布了采用 E Ink Prism 技术和高性能 AI 的笔记本电脑 ThinkBook 13x。

Link to this section与我们一起随时掌握 AI 趋势！#

2024 年初见证了 AI 的突破性进步和许多重大的技术里程碑。但这只是 AI 能力的开始。如果你想了解更多关于最新 AI 进展的信息，Ultralytics 已为你准备好了。

查看我们的 GitHub 仓库，了解我们在计算机视觉和 AI 方面的最新贡献。你也可以查看我们的解决方案页面，了解 AI 如何应用于制造业和医疗保健等行业。

2024 年以生成式 AI 浪潮开启

Link to this sectionLLM 成为趋势#

Link to this sectionAnthropic 的 Claude 3#

Link to this sectionDatabricks 的 DBRX#

Link to this sectionGoogle 的 Gemini 1.5#

Link to this sectionAI 带来的惊人视觉效果#

Link to this sectionOpenAI 的 Sora#

Link to this sectionStability AI 的 Stable Diffusion 3#

Link to this sectionGoogle 的 Lumiere#

Link to this section未来已来#

Link to this sectionElon Musk 的 Neuralink#

Link to this section迪士尼的 HoloTile Floor#

Link to this sectionApple 的 Vision Pro#

Link to this sectionCognition 的 Devin#

Link to this section荣誉提名#

Link to this section与我们一起随时掌握 AI 趋势！#

Explore solutions

机器人技术中的 AI

物流中的 AI

零售业 AI

医疗保健中的 AI

制造业中的 AI

汽车中的 AI

农业中的 AI

机器人技术中的 AI

物流中的 AI

零售业 AI

医疗保健中的 AI

制造业中的 AI

汽车中的 AI

农业中的 AI

机器人技术中的 AI

物流中的 AI

零售业 AI

医疗保健中的 AI

制造业中的 AI

汽车中的 AI

农业中的 AI

让我们一起构建 AI 的未来！