深圳尤洛视觉
深圳
立即加入

2024 年以生成式人工智能浪潮开局

Abirami Vina

6 分钟阅读

2024年4月12日

展望 2024 年第一季度激动人心的 AI 创新。我们将介绍 OpenAI 的 Sora AI、Neuralink 的脑芯片和最新的 LLM 等突破。

人工智能社区似乎几乎每天都会成为头条新闻。2024 年的前几个月令人兴奋,并且充满了新的人工智能创新。从强大的新型大型语言模型到人脑植入,2024 年正在成为令人惊叹的一年。

我们看到人工智能正在改变各行各业,使信息更容易获取,甚至正在朝着将我们的思想与机器融合迈出第一步。让我们回顾一下 2024 年第一季度,仔细看看短短几个月内在人工智能方面取得的进展。

LLM 成为趋势

大型语言模型 (LLM) 旨在基于海量文本数据理解、生成和操作人类语言,在 2024 年第一季度占据了中心舞台。许多大型科技公司都发布了自己的 LLM 模型,每个模型都具有独特的功能。GPT-3 等早期 LLM 的巨大成功激发了这一趋势。以下是 2024 年初一些最值得关注的 LLM 版本。

Anthropic 的 Claude 3

Anthropic 于 2024 年 3 月 14 日发布了 Claude 3。Claude 3 模型有三个版本:Opus、Sonnet 和 Haiku,每个版本都服务于不同的市场和用途。Haiku 是最快的模型,针对快速、基本响应进行了优化。Sonnet 在速度和智能之间取得了平衡,面向企业应用。Opus 是最先进的版本,可提供无与伦比的智能和推理能力,是执行复杂任务和实现顶级基准的理想选择。

Claude 3 拥有许多高级功能和改进:

  • 增强的多语言对话:提高了西班牙语、日语和法语等语言的能力。​
  • 高级视觉功能:能够处理各种视觉格式。​
  • 最大限度地减少拒绝:显示出更多的理解,减少了不必要的拒绝,表明上下文理解能力有所提高。​
  • 扩展的上下文窗口:它提供 20 万个上下文窗口,但能够根据客户需求处理超过 100 万个令牌的输入。
__wf_reserved_inherit
图 1. Claude 3 比以前的版本在上下文中更敏感。

Databricks 的 DBRX

Databricks DBRX 是 Databricks 于 2024 年 3 月 27 日发布的开源通用 LLM。DBRX 在包括语言理解、编程和数学在内的各种基准测试中表现出色。它超越了其他已建立的模型,同时比类似模型小约 40%。

__wf_reserved_inherit
图 2. DBRX 与其他模型的比较。

DBRX 使用细粒度的混合专家 (MoE) 架构进行下一个 token 预测训练,这就是我们能够看到训练和推理性能显着提升的原因。它的架构允许模型通过查阅一组不同的专业子模型(即“专家”)来更准确地预测序列中的下一个单词。这些子模型擅长处理不同类型的信息或任务。

Google 的 Gemini 1.5

Google 于 2024 年 2 月 15 日推出了 Gemini 1.5,这是一种计算高效的多模态 AI 模型,可以分析大量的文本、视频和音频数据。最新模型在性能、效率和功能方面更加先进。Gemini 1.5 的一个关键特性是其在长上下文理解方面的突破。该模型能够持续处理多达 100 万个 token。Gemini 1.5 的功能还得益于一种新的基于 MoE 的架构。

__wf_reserved_inherit
图 3. 流行的 LLM 的上下文长度比较

以下是 Gemini 1.5 的一些最有趣的功能:

  • 改进的数据处理:允许直接上传大型 PDF、代码存储库或冗长的视频作为提示。该模型可以跨模态进行推理并输出文本。
  • 多个文件上传和查询:开发人员现在可以上传多个文件并提出问题。
  • 可用于不同的任务:它经过优化,可以跨各种任务进行扩展,并在数学、科学、推理、多语言、视频理解和代码等领域表现出改进​

来自 AI 的惊艳视觉效果

2024 年第一季度涌现出了一些生成式 AI 模型,它们可以创造出非常逼真的视觉效果,从而引发了关于社交媒体的未来和 AI 进展的辩论。让我们深入了解一下引发讨论的模型。

OpenAI 的 Sora 

ChatGPT 的创建者 OpenAI 于 2024 年 2 月 15 日宣布了一种名为 Sora 的最先进的文本到视频深度学习模型。Sora 是一种文本到视频生成器,能够根据文本用户提示生成具有高视觉质量的分钟级视频。 

例如,请看下面的提示。 

“一个华丽的纸工艺世界,描绘了一个充满色彩鲜艳的鱼类和海洋生物的珊瑚礁。” 

这是输出视频中的一帧。 

__wf_reserved_inherit
图 4. Sora 生成的视频中的一帧。

Sora 的 架构通过混合用于纹理生成的扩散模型和用于结构连贯性的 Transformer 模型,使这成为可能。到目前为止,Sora 的访问权限已授予红队成员和一部分精选的视觉艺术家、设计师和电影制作人,以了解风险并获得反馈。 

Stability AI 的 Stable Diffusion 3 

Stability AI 于 2024 年 2 月 22 日宣布了 Stable Diffusion 3 的到来,这是一种文本到图像生成模型。该模型混合了扩散 Transformer 架构和流动匹配。他们尚未发布技术论文,但有一些关键功能需要注意。

__wf_reserved_inherit
图 5. 基于以下提示的输出图像:“夜晚,一位巫师站在山顶上,将宇宙魔法施向黑暗的天空,上面写着“Stable Diffusion 3”,由色彩缤纷的能量构成,史诗般的动漫作品”

最新版本的 Stable Diffusion 提供了改进的性能、图像质量和准确性,可以创建具有多个主体的图像。Stable Diffusion 3 还将提供从 8 亿到 80 亿个参数的各种模型。它将允许用户根据其对可扩展性和细节的特定需求进行选择。

Google 的 Lumiere 

2024年1月23日,谷歌发布了 Lumiere,这是一种文本生成视频的扩散模型。Lumiere 采用了一种名为 Space-Time-U-Net 的架构,简称 STUNet。它帮助 Lumiere 理解视频中物体的位置和运动方式,从而生成流畅逼真的视频。

__wf_reserved_inherit
图 6. 基于提示语“熊猫在家弹尤克里里”生成的视频中的一帧。

Lumiere 能够生成每段 80 帧的视频,突破了 AI 领域的视频质量界限,并树立了新的标准。以下是 Lumiere 的一些功能:

  • 图像转视频:从图像和提示语开始,Lumiere 可以将图像制作成动画视频。
  • 风格化生成:Lumiere 可以使用单个参考图像,以特定风格创建视频。
  • 电影图:Lumiere 可以为图像中的特定区域制作动画,以创建动态场景,例如,使特定对象移动,而场景的其余部分保持静态。
  • 视频修复:它可以修改视频的某些部分,例如更改视频中人物的服装或改变背景细节。

未来似乎已经到来

2024 年初也带来了许多感觉像是科幻电影中的 AI 创新。以前我们认为不可能的事情现在正在被研究。随着以下发现,未来不再遥远。

埃隆·马斯克的 Neuralink

2024 年 1 月 29 日,埃隆·马斯克的 Neuralink 成功地将无线脑芯片植入人体。这是将人脑与计算机连接起来的巨大一步。埃隆·马斯克透露,Neuralink 的首款产品名为“Telepathy”,正在筹备中。 

__wf_reserved_inherit
图 7. Neuralink 植入物

其目标是使用户,特别是那些失去肢体功能的用户,能够通过他们的想法毫不费力地控制设备。潜在的应用不仅限于便利性。埃隆·马斯克设想了一个瘫痪人士可以轻松交流的未来。

迪士尼的 HoloTile 地板 

2024 年 1 月 18 日,华特迪士尼幻想工程公司推出了 HoloTile 地板。它被称为世界上第一个多人、全方位跑步机地面。 

__wf_reserved_inherit
图 8. 迪士尼幻想工程师 Lanny Smoot 在他的最新创新 HoloTile 地板上摆姿势。

它可以像念力一样在任何人或物体下移动,从而带来身临其境的虚拟和增强现实体验。您可以在其上向任何方向行走,并避免碰撞。迪士尼的 HoloTile 地板也可以安装在戏剧舞台上,以创造性的方式跳舞和移动。

Apple 的 Vision Pro

2024 年 2 月 2 日,Apple 备受期待的 Vision Pro 头显上市。它具有一系列旨在重新定义虚拟和增强现实体验的功能和应用。Vision Pro 头显通过融合娱乐、生产力和空间计算,满足了不同的受众。Apple 自豪地宣布,在 Vision Pro 发布时,有超过 600 个应用程序(从生产力工具到游戏和娱乐服务)针对 Vision Pro 进行了优化。

Cognition 的 Devin

2024 年 3 月 12 日,Cognition 发布了一款名为 Devin 的软件工程助手。Devin 是世界上首次尝试实现自主 AI 软件工程师。与提供建议或完成特定任务的传统编码助手不同,Devin 旨在处理从最初概念到完成的整个软件开发项目。 

它可以学习新技术,构建和部署完整的应用程序,查找和修复错误,训练自己的模型,为开源和生产代码库做出贡献,甚至可以承担 Upwork 等网站上的实际开发工作。 

__wf_reserved_inherit
图 9. Devin 与其他模型的比较。

Devin 在 SWE-bench 上进行了评估,这是一个具有挑战性的基准,要求代理解决在 Django 和 scikit-learn 等开源项目中发现的真实 GitHub 问题。它正确地端到端解决了 13.86% 的问题,而之前的最先进水平为 1.96%。

荣誉提名

近期发生了很多事情,无法在一篇文章中涵盖所有内容。但以下是一些值得关注的亮点。 

  • NVIDIA 于 2024 年 3 月 21 日发布的 LATTE3D 是一种文本到 3D 的 AI 模型,可以根据文本提示即时创建 3D 图像。
  • Midjourney 首席执行官 David Holz 透露,他们新的文本到视频生成器已于 1 月开始训练,预计很快推出。
  • 联想于 2024 年 1 月 8 日发布了配备 E Ink Prism 技术的 ThinkBook 13x 和高性能 AI 笔记本电脑,推动了 AI PC 革命。

与我们一起了解最新的 AI 趋势!

2024 年初,AI 领域取得了突破性进展,并实现了许多重要的技术里程碑。但这仅仅是 AI 能力的开始。如果您想了解更多关于 AI 的最新发展,Ultralytics 将为您提供相关资讯。

查看我们的 GitHub 仓库,了解我们在计算机视觉和 AI 领域的最新贡献。您还可以查看我们的解决方案页面,了解 AI 如何应用于 制造业医疗保健等行业。 

让我们一起构建人工智能的未来!

开启您的机器学习未来之旅

免费开始
链接已复制到剪贴板