深圳Yolo 视觉
深圳
立即加入

2024 年以生成式人工智能浪潮开局

Abirami Vina

6 分钟阅读

2024年4月12日

展望 2024 年第一季度激动人心的 AI 创新。我们将介绍 OpenAI 的 Sora AI、Neuralink 的脑芯片和最新的 LLM 等突破。

人工智能社区似乎几乎每天都会成为头条新闻。2024 年的前几个月令人兴奋,并且充满了新的人工智能创新。从强大的新型大型语言模型到人脑植入,2024 年正在成为令人惊叹的一年。

我们看到人工智能正在改变各行各业,使信息更容易获取,甚至正在朝着将我们的思想与机器融合迈出第一步。让我们回顾一下 2024 年第一季度,仔细看看短短几个月内在人工智能方面取得的进展。

LLM 成为趋势

大型语言模型 (LLM) 旨在基于海量文本数据理解、生成和操作人类语言,在 2024 年第一季度占据了中心舞台。许多大型科技公司都发布了自己的 LLM 模型,每个模型都具有独特的功能。GPT-3 等早期 LLM 的巨大成功激发了这一趋势。以下是 2024 年初一些最值得关注的 LLM 版本。

Anthropic的克劳德 3

Anthropic 于 2024 年 3 月 14 日发布了Claude 3。Claude 3 型号有三个版本:Opus、Sonnet 和 Haiku,分别服务于不同的市场和用途。Haiku 是最快速的型号,针对快速、基本的响应进行了优化。Sonnet 兼顾速度与智能,主要针对企业应用。Opus 是最先进的版本,具有无与伦比的智能和推理能力,是执行复杂任务和达到最高基准的理想选择。

Claude 3 拥有许多高级功能和改进:

  • 增强的多语言对话:提高了西班牙语、日语和法语等语言的能力。​
  • 高级视觉功能:能够处理各种视觉格式。​
  • 最大限度地减少拒绝:显示出更多的理解,减少了不必要的拒绝,表明上下文理解能力有所提高。​
  • 扩展的上下文窗口:它提供 20 万个上下文窗口,但能够根据客户需求处理超过 100 万个令牌的输入。
__wf_reserved_inherit
图 1. Claude 3 比以前的版本在上下文中更敏感。

Databricks 的 DBRX

Databricks DBRX 是 Databricks 于 2024 年 3 月 27 日发布的开源通用 LLM。DBRX 在包括语言理解、编程和数学在内的各种基准测试中表现出色。它超越了其他已建立的模型,同时比类似模型小约 40%。

__wf_reserved_inherit
图 2. DBRX 与其他模型的比较。

DBRX 使用细粒度的混合专家 (MoE) 架构进行下一个 token 预测训练,这就是我们能够看到训练和推理性能显着提升的原因。它的架构允许模型通过查阅一组不同的专业子模型(即“专家”)来更准确地预测序列中的下一个单词。这些子模型擅长处理不同类型的信息或任务。

Google双子座 1.5

2024 年 2 月 15 日,Google 推出了 Gemini 1.5,这是一种计算效率高的多模态人工智能模型,可以分析大量文本、视频和音频数据。最新模型在性能、效率和功能方面都更加先进。Gemini 1.5 的一个主要特点是在长文本理解方面取得了突破。该模型能够持续处理多达 100 万个代币。Gemini 1.5 的功能还得益于基于 MoE 的新架构。

__wf_reserved_inherit
图 3. 流行的 LLM 的上下文长度比较

以下是 Gemini 1.5 的一些最有趣的功能:

  • 改进的数据处理:允许直接上传大型 PDF、代码存储库或冗长的视频作为提示。该模型可以跨模态进行推理并输出文本。
  • 多个文件上传和查询:开发人员现在可以上传多个文件并提出问题。
  • 可用于不同的任务:它经过优化,可以跨各种任务进行扩展,并在数学、科学、推理、多语言、视频理解和代码等领域表现出改进​

来自 AI 的惊艳视觉效果

2024 年第一季度涌现出了一些生成式 AI 模型,它们可以创造出非常逼真的视觉效果,从而引发了关于社交媒体的未来和 AI 进展的辩论。让我们深入了解一下引发讨论的模型。

OpenAI 的 Sora 

ChatGPT 的创建者 OpenAI 于 2024 年 2 月 15 日发布了一款名为 Sora 的先进文本到视频深度学习模型。Sora 是一种文本到视频生成器,能够根据用户的文本提示生成具有高视觉质量的分钟长视频。 

例如,请看下面的提示。 

“一个华丽的纸工艺世界,描绘了一个充满色彩鲜艳的鱼类和海洋生物的珊瑚礁。” 

这是输出视频中的一帧。 

__wf_reserved_inherit
图 4. Sora 生成的视频中的一帧。

Sora 的架构融合了用于生成纹理的扩散模型和用于结构连贯性的transformer 模型,从而实现了这一点。到目前为止,只有红队成员和部分视觉艺术家、设计师和电影制片人可以使用 Sora,以了解风险并获得反馈。 

Stability AI的稳定扩散 3 

Stability AI 公司宣布,文本到图像生成模型Stable Diffusion 3 将于 2024 年 2 月 22 日面世。该模型混合了扩散transformer 架构和流量匹配。他们尚未发布技术文件,但有几个关键功能值得关注。

__wf_reserved_inherit
图 5. 基于以下提示的输出图像:“夜晚,一位巫师站在山顶上,将宇宙魔法施向黑暗的天空,上面写着“Stable Diffusion 3”,由色彩缤纷的能量构成,史诗般的动漫作品”

最新版本的 Stable Diffusion 提供了改进的性能、图像质量和准确性,可以创建具有多个主体的图像。Stable Diffusion 3 还将提供从 8 亿到 80 亿个参数的各种模型。它将允许用户根据其对可扩展性和细节的特定需求进行选择。

Google的卢米埃 

2024 年 1 月 23 日,Google 推出了文字到视频传播模式Lumiere。Lumiere 使用一种名为 Space-Time-U-Net 的架构,简称 STUNet。它可以帮助 Lumiere 理解事物在视频中的位置和移动方式。这样,它就能生成流畅逼真的视频。

__wf_reserved_inherit
图 6. 基于提示语“熊猫在家弹尤克里里”生成的视频中的一帧。

Lumiere 能够生成每段 80 帧的视频,突破了 AI 领域的视频质量界限,并树立了新的标准。以下是 Lumiere 的一些功能:

  • 图像转视频:从图像和提示语开始,Lumiere 可以将图像制作成动画视频。
  • 风格化生成:Lumiere 可以使用单个参考图像,以特定风格创建视频。
  • 电影图:Lumiere 可以为图像中的特定区域制作动画,以创建动态场景,例如,使特定对象移动,而场景的其余部分保持静态。
  • 视频修复:它可以修改视频的某些部分,例如更改视频中人物的服装或改变背景细节。

未来似乎已经到来

2024 年初也带来了许多感觉像是科幻电影中的 AI 创新。以前我们认为不可能的事情现在正在被研究。随着以下发现,未来不再遥远。

埃隆·马斯克的 Neuralink

2024 年 1 月 29 日,埃隆·马斯克的 Neuralink 成功地将无线脑芯片植入人体。这是将人脑与计算机连接起来的巨大一步。埃隆·马斯克透露,Neuralink 的首款产品名为“Telepathy”,正在筹备中。 

__wf_reserved_inherit
图 7. Neuralink 植入物

其目标是使用户,特别是那些失去肢体功能的用户,能够通过他们的想法毫不费力地控制设备。潜在的应用不仅限于便利性。埃隆·马斯克设想了一个瘫痪人士可以轻松交流的未来。

迪士尼的 HoloTile 地板 

2024 年 1 月 18 日,华特迪士尼幻想工程公司推出了 HoloTile 地板。它被称为世界上第一个多人、全方位跑步机地面。 

__wf_reserved_inherit
图 8. 迪士尼幻想工程师 Lanny Smoot 在他的最新创新 HoloTile 地板上摆姿势。

它可以像念力一样在任何人或物体下移动,从而带来身临其境的虚拟和增强现实体验。您可以在其上向任何方向行走,并避免碰撞。迪士尼的 HoloTile 地板也可以安装在戏剧舞台上,以创造性的方式跳舞和移动。

Apple 的 Vision Pro

2024 年 2 月 2 日,Apple 备受期待的 Vision Pro 头显上市。它具有一系列旨在重新定义虚拟和增强现实体验的功能和应用。Vision Pro 头显通过融合娱乐、生产力和空间计算,满足了不同的受众。Apple 自豪地宣布,在 Vision Pro 发布时,有超过 600 个应用程序(从生产力工具到游戏和娱乐服务)针对 Vision Pro 进行了优化。

Cognition 的 Devin

2024 年 3 月 12 日,Cognition 发布了一款名为 Devin 的软件工程助手。Devin 是世界上首次尝试实现自主 AI 软件工程师。与提供建议或完成特定任务的传统编码助手不同,Devin 旨在处理从最初概念到完成的整个软件开发项目。 

它可以学习新技术,构建和部署完整的应用程序,查找和修复错误,训练自己的模型,为开源和生产代码库做出贡献,甚至可以承担 Upwork 等网站上的实际开发工作。 

__wf_reserved_inherit
图 9. Devin 与其他模型的比较。

Devin 在 SWE-bench 上进行了评估,这是一个具有挑战性的基准,要求代理解决在 Django 和 scikit-learn 等开源项目中发现的真实 GitHub 问题。它正确地端到端解决了 13.86% 的问题,而之前的最先进水平为 1.96%。

荣誉提名

近期发生了很多事情,无法在一篇文章中涵盖所有内容。但以下是一些值得关注的亮点。 

  • NVIDIA®)于 2024 年 3 月 21 日发布的LATTE3D 是一种文本到 3D 的人工智能模型,可根据文本提示即时创建 3D 表象。
  • Midjourney 首席执行官 David Holz 透露,他们新的文本到视频生成器已于 1 月开始训练,预计很快推出。
  • 联想于 2024 年 1 月 8 日发布了配备 E Ink Prism 技术的 ThinkBook 13x 和高性能 AI 笔记本电脑,推动了 AI PC 革命。

与我们一起了解最新的 AI 趋势!

2024 年伊始,人工智能取得了突破性进展,许多重大技术里程碑也随之诞生。但这仅仅是人工智能的开始。如果您想了解更多有关人工智能最新发展的信息,Ultralytics 将为您提供帮助。

查看我们的 GitHub 仓库,了解我们在计算机视觉和 AI 领域的最新贡献。您还可以查看我们的解决方案页面,了解 AI 如何应用于 制造业医疗保健等行业。 

让我们一起构建人工智能的未来!

开启您的机器学习未来之旅

免费开始