2024 年以生成式 AI 浪潮开启
盘点 2024 年第一季度的激动人心的 AI 创新。我们将涵盖 OpenAI 的 Sora AI、Neuralink 脑机芯片以及最新 LLM 等突破性成果。

AI 社区似乎每天都在占据头条。2024 年的前几个月令人兴奋,充满了新的 AI 创新。从功能强大的大型语言模型到人脑植入物,2024 年正变得令人惊叹。
我们看到 AI 正在改变各个行业,使信息获取变得更加便捷,甚至正在迈出将人类思维与机器融合的第一步。让我们回顾一下 2024 年第一季度,深入了解 AI 在短短几个月内取得的进展。
Link to this sectionLLM 成为趋势#
大型语言模型(LLM)旨在基于海量文本数据理解、生成和处理人类语言,在 2024 年第一季度占据了中心舞台。许多大型科技公司发布了各自的 LLM 模型,每一款都有其独特的功能。GPT-3 等早期 LLM 的惊人成功激发了这一趋势。以下是 2024 年初一些最值得关注的 LLM 发布。
Link to this sectionAnthropic 的 Claude 3#
Anthropic 于 2024 年 3 月 14 日发布了 Claude 3。Claude 3 模型有三个版本:Opus、Sonnet 和 Haiku,分别服务于不同的市场和需求。Haiku 是速度最快的模型,针对快速、基础的响应进行了优化。Sonnet 在速度和智能之间取得了平衡,针对企业应用。Opus 是最先进的版本,提供了无与伦比的智能和推理能力,非常适合处理复杂任务并达到顶级基准测试标准。
Claude 3 拥有许多先进的功能和改进:
- 增强的多语言对话:提升了包括西班牙语、日语和法语在内的语言能力。
- 先进的视觉功能:能够处理各种视觉格式。
- 最小化拒绝:展现出更强的理解力,减少了不必要的拒绝,这意味着语境掌握能力得到了提升。
- 扩展的上下文窗口:它提供 200K 的上下文窗口,但能够根据客户需求处理超过 100 万 token 的输入。

图 1. Claude 3 比之前的版本具有更强的上下文感知能力。
Link to this sectionDatabricks 的 DBRX#
Databricks DBRX 是 Databricks 于 2024 年 3 月 27 日发布的一款开源、通用 LLM。DBRX 在各种基准测试中表现出色,包括语言理解、编程和数学。它超越了其他成熟模型,同时体积比同类模型小约 40%。

图 2. DBRX 与其他模型的比较。
DBRX 使用下一 token 预测技术并结合细粒度的混合专家(MoE)架构进行训练,这就是我们能看到其训练和推理性能显著提升的原因。其架构允许模型通过咨询一组多样化的专业子模型(“专家”)来更准确地预测序列中的下一个单词。这些子模型擅长处理不同类型的信息或任务。
Link to this sectionGoogle 的 Gemini 1.5#
Google 于 2024 年 2 月 15 日推出了 Gemini 1.5,这是一款计算高效的多模态 AI 模型,能够分析大量的文本、视频和音频数据。该最新模型在性能、效率和功能方面更为先进。Gemini 1.5 的一个关键特性是其在长上下文理解方面的突破。该模型能够稳定处理多达 100 万个 token。Gemini 1.5 的性能也归功于基于 MoE 的新架构。

图 3. 主流 LLM 上下文长度对比
以下是 Gemini 1.5 的一些最有趣的功能:
- 改进的数据处理:允许直接上传大型 PDF、代码仓库或长视频作为提示词。模型可以跨模态进行推理并输出文本。
- 多文件上传与查询:开发人员现在可以上传多个文件并进行提问。
- 可用于不同任务:它针对跨不同任务进行了优化,并在数学、科学、推理、多语言、视频理解和代码等领域表现出改进。
Link to this sectionAI 带来的惊人视觉效果#
2024 年第一季度揭晓了多款生成式 AI 模型,它们能够创造出如此逼真的视觉效果,以至于引发了关于社交媒体未来和 AI 进展的辩论。让我们深入探讨这些引发热议的模型。
Link to this sectionOpenAI 的 Sora#
ChatGPT 的创建者 OpenAI 于 2024 年 2 月 15 日宣布了一款名为 Sora 的尖端文本转视频深度学习模型。Sora 是一款文本转视频生成器,能够根据用户的文字提示生成长达一分钟、且具备高质量视觉效果的视频。
例如,看看下面这个提示词。
“一个精美的纸艺珊瑚礁世界,充满了色彩斑斓的鱼类和海洋生物。”
这里是输出视频中的一帧。

图 4. Sora 生成视频中的一帧。
Sora 的架构通过融合用于纹理生成的扩散模型和用于结构一致性的 Transformer 模型实现了这一点。到目前为止,Sora 的访问权限已开放给红队人员以及精选的视觉艺术家、设计师和电影制作人,以了解其风险并收集反馈。
Link to this sectionStability AI 的 Stable Diffusion 3#
Stability AI 于 2024 年 2 月 22 日宣布推出 Stable Diffusion 3,这是一款文本转图像生成模型。该模型融合了 diffusion transformer 架构和 flow matching 技术。他们尚未发布技术论文,但有几个关键特性值得关注。

图 5. 基于以下提示词生成的图像:“史诗动漫风格的艺术作品,一个巫师站在山顶,在夜晚向黑暗的天空施展宇宙魔法,魔法光芒形成了“Stable Diffusion 3”字样” (来源)
Stable Diffusion 的最新模型提供了更佳的性能、图像质量,并在创建包含多个主体的图像时具有更高的准确性。Stable Diffusion 3 还将提供从 8 亿到 80 亿参数不等的多种模型,允许用户根据自己对可扩展性和细节的具体需求进行选择。
Link to this sectionGoogle 的 Lumiere#
2024 年 1 月 23 日,Google 推出了 Lumiere,这是一款文本转视频扩散模型。Lumiere 使用了一种名为 Space-Time-U-Net(简称 STUNet)的架构。它可以帮助 Lumiere 理解物体在视频中的位置以及运动方式。通过这种方式,它能够生成流畅且栩栩如生的视频。

图 6. 基于提示词“熊猫在家中弹尤克里里”生成的视频中的一帧。
凭借每段视频生成 80 帧的能力,Lumiere 正在突破界限,为 AI 领域的视频质量设定了新标准。以下是 Lumiere 的一些功能:
- 图像转视频:从一张图像和一个提示词开始,Lumiere 可以将图像制作成视频。
- 风格化生成:Lumiere 可以使用单一参考图像以特定风格创作视频。
- 动态静止画(Cinemagraphs):Lumiere 可以为图像中的特定区域设置动画,从而创建动态场景,例如让特定的物体移动,而场景的其余部分保持静止。
- 视频修复(Video Inpainting):它可以修改视频的局部,例如更改视频中人物的服饰或改变背景细节。
Link to this section未来已来#
2024 年初还带来了许多感觉像是出自科幻电影的 AI 创新。那些我们以前认为不可能的事情现在正在成为现实。随着以下发现,未来似乎不再那么遥远。
Link to this sectionElon Musk 的 Neuralink#
2024 年 1 月 29 日,Elon Musk 的 Neuralink 成功在一名人类患者身上植入了其无线脑机芯片。这是将人脑与计算机相连的重大一步。Elon Musk 分享说,Neuralink 的首款产品,名为“Telepathy”(心灵感应),正在研发中。

图 7. Neuralink 植入设备
其目标是使用户,特别是那些失去肢体功能的人,能够通过思想轻松控制设备。潜在的应用远不止于便利。Elon Musk 设想了一个瘫痪患者能够轻松交流的未来。
Link to this section迪士尼的 HoloTile Floor#
2024 年 1 月 18 日,华特迪士尼幻想工程(Walt Disney Imagineering)发布了 HoloTile Floor。它被称为世界上第一个多人、全向跑步机地面系统。

图 8。迪士尼幻想工程师 Lanny Smoot 在他的最新发明 HoloTile 地板上摆姿势。
它可以像念力一样在任何人和物体下移动,以实现沉浸式的虚拟和增强现实体验。你可以在上面向任何方向行走并避免碰撞。迪士尼的 HoloTile Floor 也可以安装在舞台上,用于舞蹈和创意表演。
Link to this sectionApple 的 Vision Pro#
2024 年 2 月 2 日,Apple 万众期待的 Vision Pro 头显上市。它拥有一系列旨在重新定义虚拟和增强现实体验的功能与应用。Vision Pro 头显通过融合娱乐、生产力和空间计算来满足广泛的受众需求。Apple 自豪地宣布,超过 600 款从生产力工具到游戏和娱乐服务的应用已在 Vision Pro 发布时完成了优化。
Link to this sectionCognition 的 Devin#
2024 年 3 月 12 日,Cognition 发布了一款名为 Devin 的软件工程助手。Devin 是世界上首次尝试构建自动 AI 软件工程师的成果。与提供建议或完成特定任务的传统编码助手不同,Devin 旨在处理从最初构思到最终完成的整个软件开发项目。
它能够学习新技术、构建和部署完整的应用程序、查找并修复错误、训练自己的模型、为开源和生产代码库做贡献,甚至可以从 Upwork 等网站接取真实的开发工作。

图 9. Devin 与其他模型的比较。
Devin 在 SWE-bench 上进行了评估,这是一个具有挑战性的基准测试,要求智能体解决在 Django 和 scikit-learn 等开源项目中发现的现实世界 GitHub 问题。它成功端到端解决了 13.86% 的问题,而此前的最佳水平为 1.96%。
Link to this section荣誉提名#
近期发生了太多事情,无法在本文中一一列举。但以下是一些其他的荣誉提名。
- NVIDIA 的 LATTE3D 于 2024 年 3 月 21 日发布,是一款文本转 3D AI 模型,可以即时根据文本提示创建 3D 表示。
- 由首席执行官 David Holz 预告的 Midjourney 全新文本转视频生成器已于 1 月开始训练,预计很快发布。
- 为推进 AI PC 革命,Lenovo 于 2024 年 1 月 8 日发布了采用 E Ink Prism 技术和高性能 AI 的笔记本电脑 ThinkBook 13x。
Link to this section与我们一起随时掌握 AI 趋势!#
2024 年初见证了 AI 的突破性进步和许多重大的技术里程碑。但这只是 AI 能力的开始。如果你想了解更多关于最新 AI 进展的信息,Ultralytics 已为你准备好了。
查看我们的 GitHub 仓库,了解我们在计算机视觉和 AI 方面的最新贡献。你也可以查看我们的解决方案页面,了解 AI 如何应用于制造业和医疗保健等行业。






