X
Ultralytics YOLOv8.2 发布Ultralytics YOLOv8.2 发布Ultralytics YOLOv8.2 释放箭头
绿色检查
链接复制到剪贴板

2024 年始于生成式 AI 浪潮

看看 2024 年第一季度令人兴奋的 AI 创新。我们将介绍 OpenAI 的 Sora AI、Neuralink 的大脑芯片和最新的 LLM 等突破性进展。

Facebook 徽标Twitter 徽标LinkedIn 徽标复制链接符号

人工智能社区似乎几乎每天都成为头条新闻。2024 年的头几个月令人兴奋,充满了新的 AI 创新。从强大的新型大型语言模型到人脑植入物,2024 年将变得令人惊叹。

我们看到人工智能正在改变行业,使信息更容易获得,甚至迈出了将我们的思想与机器融合的第一步。让我们回顾一下 2024 年第一季度,仔细看看 AI 在短短几个月内取得的进展。

LLM 正在流行

大型语言模型 (LLM) 旨在基于大量文本数据理解、生成和操作人类语言,在 2024 年第一季度成为焦点。许多大型科技公司都发布了自己的 LLM 模型,每个模型都有独特的功能。像 GPT-3 这样的先前 LLM 取得了令人难以置信的成功,激发了这一趋势。以下是 2024 年初一些最值得注意的 LLM 版本。

Anthropic克劳德 3

Anthropic 2024 年 3 月 14 日发布了 Claude 3 。Claude 3 模型有三个版本:Opus、Sonnet 和 Haiku,每个版本都服务于不同的市场和目的。Haiku 是最快的模型,针对快速、基本的响应进行了优化。十四行诗在速度与智能之间取得平衡,面向企业应用程序。Opus 是最先进的版本,提供无与伦比的智能和推理能力,非常适合复杂任务和达到最高基准。

Claude 3 拥有许多高级功能和改进:

  • 增强的多语言对话:提高了西班牙语、日语和法语等语言的能力。
  • 高级视觉功能:能够处理各种视觉格式
  • 最小化拒绝:表现出更多的理解,减少不必要的拒绝,表明对上下文的理解有所改善
  • 扩展上下文窗口:它提供 200K 上下文窗口,但能够根据客户需求处理超过 100 万个令牌的输入。
图 1. Claude 3 比以前的版本更具上下文意识。

Databricks 的 DBRX

Databricks DBRX 是 Databricks 于 2024 年 3 月 27 日发布的开放通用 LLM。DBRX 在各种基准测试中都表现出色,包括语言理解、编程和数学。它超越了其他已建立的模型,同时比同类模型小约 40%。

图 2. 将 DBRX 与其他型号进行比较。

DBRX 使用具有细粒度专家混合 (MoE) 架构的下一个令牌预测进行训练,这就是为什么我们可以看到训练和推理性能的显着改进。它的架构允许模型通过咨询一组不同的专业子模型(“专家”)来更准确地预测序列中的下一个单词。这些子模型擅长处理不同类型的信息或任务。

谷歌的双子座 1.5

谷歌于 2024 年 2 月 15 日推出了 Gemini 1.5,这是一种计算高效的多模态 AI 模型,可以分析大量的文本、视频和音频数据。最新型号在性能、效率和功能方面更加先进。Gemini 1.5 的一个关键特性是它在长上下文理解方面的突破。该模型能够一致地处理多达 100 万个代币。Gemini 的 1.5 功能也得益于基于 MoE 的新架构。

图 3. 比较热门 LLM 的上下文长度

以下是 Gemini 1.5 的一些最有趣的功能:

  • 改进的数据处理:允许直接上传大型 PDF、代码存储库或冗长视频作为提示。该模型可以跨模态进行推理并输出文本。
  • 多个文件上传和查询:开发人员现在可以上传多个文件并提出问题。
  • 可用于不同的任务:它经过优化,可以跨不同的任务进行扩展,并显示数学、科学、推理、多语言、视频理解和代码等领域的改进

来自 AI 的惊人视觉效果

2024 年第一季度公布了生成式 AI 模型,这些模型可以创建如此真实的视觉效果,引发了关于社交媒体未来和 AI 进步的辩论。让我们深入了解引发对话的模型。

OpenAI 的 Sora 

OpenAI,创造者 ChatGPT,于 2024 年 2 月 15 日宣布了一种名为 Sora 的最先进的文本到视频深度学习模型。Sora 是一种文本到视频生成器,能够根据文本用户提示生成具有高视觉质量的一分钟长视频。 

例如,请查看以下提示。 

“一个华丽的珊瑚礁纸艺世界,到处都是五颜六色的鱼类和海洋生物。” 

而且,这是输出视频中的一帧。 

图 4. Sora 生成的视频中的帧。

Sora 的架构通过混合用于纹理生成的扩散模型和用于结构连贯性的转换器模型来实现这一点。到目前为止,红队成员和一组精选的视觉艺术家、设计师和电影制作人都可以访问 Sora,以了解风险并获得反馈。 

Stability AI的稳定扩散 3 

Stability AI 宣布将于 2024 年 2 月 22 日推出文本到图像生成模型 Stable Diffusion 3。该模型混合了扩散变压器架构和流量匹配。他们尚未发布技术论文,但有一些关键功能需要注意。

图 5. 基于提示的输出图像:“史诗般的动漫艺术作品,一个巫师在晚上在山顶上向黑暗的天空施放一个宇宙咒语,上面写着”Stable Diffusion 3“,由五颜六色的能量制成”

最新型号的 Stable Diffusion 在创建具有多个主题的图像时提供了改进的性能、图像质量和准确性。Stable Diffusion 3 还将提供从 8 亿到 80 亿个参数的各种模型。它将允许用户根据他们对可扩展性和细节的特定需求进行选择。

谷歌的卢米埃尔 

2024 年 1 月 23 日,谷歌推出了 Lumiere,一种文本到视频的传播模型。卢米埃尔使用一种称为Space-Time-U-Net(简称STUNet)的架构。它可以帮助卢米埃尔了解事物的位置以及它们在视频中的移动方式。通过这样做,它可以生成流畅逼真的视频。

图 6. 根据提示生成的视频帧:“熊猫在家弹尤克里里。

凭借每个视频生成 80 帧的能力,Lumiere 正在突破界限,为 AI 领域的视频质量设定新标准。以下是卢米埃尔的一些功能:

  • 图像到视频:从图像和提示开始,卢米埃尔可以将图像动画化为视频。
  • 风格化生成:卢米埃尔可以使用单个参考图像创建特定样式的视频。
  • 电影摄影:卢米埃尔可以对图像中的特定区域进行动画处理,以创建动态场景,例如特定对象移动,而场景的其余部分保持静止。
  • 视频修复:它可以修改视频的某些部分,例如更改视频中人物的着装或更改背景细节。

未来似乎就在这里

2024 年初还带来了许多 AI 创新,感觉就像科幻电影中的东西。以前我们说不可能的事情现在正在解决。随着以下发现,未来并不遥远。

埃隆·马斯克(Elon Musk)的Neuralink

2024 年 1 月 29 日,埃隆·马斯克 (Elon Musk) 的 Neuralink 成功将其无线大脑芯片植入人体。这是将人脑连接到计算机的一大步。埃隆·马斯克(Elon Musk)分享说,Neuralink的第一款名为“心灵感应”的产品正在开发中。 

图 7. Neuralink 植入物

目标是使用户,特别是那些失去肢体功能的用户,能够通过他们的思想毫不费力地控制设备。潜在的应用超出了便利性。埃隆·马斯克(Elon Musk)设想了一个瘫痪者可以轻松交流的未来。

迪斯尼的全息瓷砖地板 

2024 年 1 月 18 日,华特迪士尼幻想工程推出了 HoloTile 地板。它被称为世界上第一个多人、全向跑步机地面。 

图 8.迪斯尼幻想师兰尼·斯穆特(Lanny Smoot)在他的最新创新HoloTile地板上摆姿势。

它可以像心灵感应一样在任何人或物体下方移动,以获得身临其境的虚拟和增强现实体验。您可以向任何方向行走,并避免在上面发生碰撞。迪斯尼的HoloTile地板也可以种植在戏剧舞台上,以创造性的方式跳舞和移动。

苹果的Vision Pro

2024 年 2 月 2 日,Apple 备受期待的 Vision Pro 头显上市。它具有一系列功能和应用程序,旨在重新定义虚拟现实和增强现实体验。Vision Pro 头戴式设备通过融合娱乐、生产力和空间计算来迎合不同的受众。Apple 自豪地宣布,从生产力工具到游戏和娱乐服务,超过 600 款应用程序在发布时针对 Vision Pro 进行了优化。

认知的德文

2024 年 3 月 12 日,Cognition 发布了一款名为 Devin 的软件工程助手。Devin是世界上第一个自主AI软件工程师的尝试。与提供建议或完成特定任务的传统编码助手不同,Devin 旨在处理从初始概念到完成的整个软件开发项目。 

它可以学习新技术,构建和部署完整的应用程序,查找和修复错误,训练自己的模型,为开源和生产代码库做出贡献,甚至可以从Upwork等网站承担真正的开发工作。 

图 9. 将 Devin 与其他模型进行比较。

Devin 在 SWE-bench 上进行了评估,这是一个具有挑战性的基准测试,要求代理解决在 Django 和 scikit-learn 等开源项目中发现的真实 GitHub 问题。它正确地解决了 13.86% 的端到端问题,而之前最先进的问题为 1.96%。

荣誉奖

发生了太多事情,不可能涵盖本文中的所有内容。但是,这里有一些更值得一提的地方。 

  • NVIDIA 于 2024 年 3 月 21 日宣布的 LATTE3D 是一款文本到 3D 的 AI 模型,可根据文本提示立即创建 3D 表示。
  • Midjourney的新文本到视频生成器由首席执行官大卫·霍尔茨(David Holz)调侃,于1月份开始训练,预计将很快推出。
  • 联想于 2024 年 1 月 8 日发布了采用 E Ink Prism 技术和高性能 AI 笔记本电脑的 ThinkBook 13x,推动了 AI PC 革命。

与我们一起了解 AI 趋势的最新信息!

2024 年初,人工智能取得了突破性进展,并取得了许多重大技术里程碑。但这只是人工智能所能做的一切的开始。如果您想了解更多关于最新的人工智能发展, Ultralytics 已经为您准备好了。

查看我们的 GitHub 存储库 ,了解我们在计算机视觉和 AI 方面的最新贡献。您还可以查看我们的解决方案页面,了解人工智能在 制造业 医疗保健等行业的应用。 

让我们共同打造人工智能的未来

开始您的未来机器学习之旅

在此类别中阅读更多内容