2024 年将掀起人工智能浪潮

阿比拉米-维纳

6 分钟阅读

2024年4月12日

看看 2024 年第一季度令人兴奋的人工智能创新。我们将介绍 OpenAI 的 Sora AI、Neuralink 的大脑芯片以及最新的 LLM 等突破性技术。

人工智能界似乎几乎每天都能成为头条新闻。2024 年的前几个月令人兴奋,充满了新的人工智能创新。从功能强大的新大型语言模型到人脑植入,2024 年的发展令人惊叹。

我们看到,人工智能正在改变各行各业,让人们更容易获取信息,甚至迈出了将我们的思维与机器融合的第一步。让我们把时间倒回到 2024 年第一季度,仔细看看人工智能在短短几个月内取得的进展。

法学硕士是大势所趋

大型语言模型(LLM)旨在基于海量文本数据理解、生成和处理人类语言,它在 2024 年第一季度占据了中心位置。许多大型科技公司都发布了自己的 LLM 模型,每个模型都具有独特的功能。之前的 LLM(如 GPT-3)取得了令人难以置信的成功,激发了这一趋势。以下是 2024 年初发布的一些最引人注目的 LLM。

人类的克劳德 3

Anthropic 于 2024 年 3 月 14 日发布了Claude 3。Claude 3 型号有三个版本:Opus、Sonnet 和 Haiku,分别服务于不同的市场和用途。Haiku 是最快速的型号,针对快速、基本的响应进行了优化。Sonnet 兼顾速度与智能,主要针对企业应用。Opus 是最先进的版本,具有无与伦比的智能和推理能力,是执行复杂任务和达到最高基准的理想选择。

Claude 3 拥有许多先进的功能和改进:

  • 增强型多语言对话:
  • 先进的视觉功能:能够处理各种视觉格式。
  • 减少拒绝:
  • 扩展上下文窗口:它提供 20 万个上下文窗口,但可根据客户需求处理超过 100 万个令牌的输入。
__wf_保留继承
图 1.与之前的版本相比,克劳德 3 更能感知上下文。

Databricks 的 DBRX

Databricks DBRX是 Databricks 于 2024 年 3 月 27 日发布的一款开放式通用 LLM。DBRX 在语言理解、编程和数学等多项基准测试中表现出色。它超越了其他成熟的模型,同时比同类模型小大约 40%。

__wf_保留继承
图 2.DBRX 与其他模型的比较。

DBRX 采用细粒度专家混合(MoE)架构进行下一个词预测训练,这就是我们能看到训练和推理性能显著提高的原因。其架构允许模型通过咨询不同的专业子模型("专家")来更准确地预测序列中的下一个单词。这些子模型擅长处理不同类型的信息或任务。

谷歌双子座 1.5

2024 年 2 月 15 日,谷歌推出了 Gemini 1.5,这是一种计算效率高的多模态人工智能模型,可以分析大量文本、视频和音频数据。最新模型在性能、效率和功能方面都更加先进。Gemini 1.5 的一个主要特点是在长文本理解方面取得了突破。该模型能够持续处理多达 100 万个代币。Gemini 1.5 的功能还得益于基于 MoE 的新架构。

__wf_保留继承
图 3.比较常用 LLM 的上下文长度

以下是双子座 1.5最有趣的功能:

  • 改进数据处理:允许直接上传大型 PDF、代码库或冗长的视频作为提示。
  • 多个文件上传和查询:开发人员现在可以上传多个文件并提出问题。
  • 可用于不同任务:它经过优化,可扩展到各种任务,在数学、科学、推理、多语种、视频理解和代码等领域均有改进

人工智能带来令人惊叹的视觉效果

2024 年第一季度发布了生成式人工智能模型,这些模型能够创造出如此真实的视觉效果,引发了关于社交媒体未来和人工智能进步的讨论。让我们深入了解一下这些引发讨论的模型。

OpenAI 的索拉 

ChatGPT 的创建者 OpenAI 于 2024 年 2 月 15 日发布了一款名为 Sora 的先进文本到视频深度学习模型。Sora 是一种文本到视频生成器,能够根据用户的文本提示生成具有高视觉质量的分钟长视频。 

例如,请看下面的提示。 

"渲染华丽的珊瑚礁纸艺世界,到处都是色彩斑斓的鱼类和海洋生物"。 

下面是输出视频中的一帧。 

__wf_保留继承
图 4. Sora 生成的视频中的一帧。

Sora 的架构融合了用于纹理生成的扩散模型和用于结构连贯性的变压器模型,从而实现了这一点。到目前为止,只有红队成员和部分视觉艺术家、设计师和电影制作人可以使用 Sora,以了解风险并获得反馈。 

稳定 AI 的稳定扩散 3 

Stability AI 公司宣布,文本到图像生成模型Stable Diffusion 3 将于 2024 年 2 月 22 日面世。该模型混合了扩散变压器架构和流量匹配。他们尚未发布技术文件,但有几个关键功能值得关注。

__wf_保留继承
图 5.根据提示输出的图像:"史诗般的动漫作品,一个巫师在夜晚的山顶上向黑暗的天空施放宇宙咒语,咒语上写着 "稳定扩散 3",由五彩缤纷的能量组成"。

最新型号的稳定扩散在创建多主体图像方面的性能、图像质量和精确度都有所提高。稳定扩散 3 还将提供从 8 亿到 80 亿个参数的各种模型。用户可以根据自己对可扩展性和细节的具体需求进行选择。

谷歌的卢米埃 

2024 年 1 月 23 日,谷歌推出了文本到视频传播模式Lumiere。Lumiere 使用一种名为 Space-Time-U-Net 的架构,简称 STUNet。它可以帮助 Lumiere 理解事物在视频中的位置和移动方式。这样,它就能生成流畅逼真的视频。

__wf_保留继承
图 6. 根据提示生成的视频中的一帧:"熊猫在家弹尤克里里"。

Lumiere 能够生成每段 80 帧的视频,它突破了界限,为人工智能领域的视频质量设定了新标准。以下是 Lumiere 的部分功能:

  • 图像到视频:
  • 风格化生成:
  • 电影胶片
  • 视频绘制:它可以修改视频的部分内容,如改变视频中人物的着装或改变背景细节。

未来似乎就在眼前

2024 年伊始也带来了许多人工智能创新,让人感觉像是科幻电影里的情节。以前我们认为不可能实现的事情,现在正在努力实现。有了以下这些发现,我们感觉未来并不遥远。

埃隆-马斯克的神经链路

2024 年 1 月 29 日,埃隆-马斯克(Elon Musk)的神经链接公司(Neuralink)成功地将其无线大脑芯片植入人体。这是实现人脑与计算机连接的一大步。埃隆-马斯克透露,Neuralink 的首款产品 "心灵感应 "正在研发中。 

__wf_保留继承
图 7.神经链接植入体

其目标是让用户,尤其是失去肢体功能的用户,能够通过意念毫不费力地控制设备。其潜在应用不仅限于方便。埃隆-马斯克(Elon Musk)设想,在未来,瘫痪病人可以轻松地进行交流。

迪斯尼的 HoloTile 地板 

2024 年 1 月 18 日,华特迪士尼幻想工程公司推出了 HoloTile Floor。它被称为世界上第一个多人全方位跑步机地面。 

__wf_保留继承
图 8.迪士尼幻想师 Lanny Smoot 在他的最新创新产品 HoloTile 地板上摆姿势。

它可以在任何人或物体下移动,就像心灵遥感一样,带来身临其境的虚拟和增强现实体验。你可以在上面朝任何方向行走,并避免碰撞。迪斯尼的 HoloTile Floor 还可以安装在戏剧舞台上,以创造性的方式跳舞和移动。

苹果公司的 Vision Pro

2024 年 2 月 2 日,苹果公司备受期待的 Vision Pro 头戴式设备上市。它拥有一系列功能和应用,旨在重新定义虚拟和增强现实体验。Vision Pro 头戴式设备融合了娱乐、生产力和空间计算功能,迎合了不同受众的需求。苹果公司自豪地宣布,在 Vision Pro 发布时,有 600 多个应用程序(从生产力工具到游戏和娱乐服务)针对 Vision Pro 进行了优化。

Cognition 的戴文

2024 年 3 月 12 日,Cognition 发布了一款名为 Devin 的软件工程助手。Devin是世界上首个自主人工智能软件工程师的尝试。与提供建议或完成特定任务的传统编码助手不同,Devin 的设计目的是处理整个软件开发项目,从最初的概念到完成。 

它可以学习新技术、构建和部署完整的应用程序、查找和修复错误、训练自己的模型、为开源和生产代码库做贡献,甚至还可以从 Upwork 等网站接手真正的开发工作。 

__wf_保留继承
图 9.Devin 与其他模型的比较。

Devin在SWE-bench上进行了评估,SWE-bench是一项具有挑战性的基准测试,要求代理解决GitHub上的实际问题,这些问题出现在Django和scikit-learn等开源项目中。它正确解决了 13.86% 的端到端问题,而之前的先进水平仅为 1.96%。

荣誉奖

由于发生的事情太多,本文不可能面面俱到。不过,这里还有一些值得一提的事情。 

  • 英伟达™(NVIDIA®)于 2024 年 3 月 21 日发布的LATTE3D 是一种文本到 3D 的人工智能模型,可根据文本提示即时创建 3D 表象。
  • 首席执行官大卫-霍尔茨(David Holz)曾预告,Midjourney 的新文本到视频生成器已于 1 月份开始培训,预计不久将推出。
  • 推进人工智能 PC 革命,联想于 2024 年 1 月 8 日发布了采用 E Ink 棱镜技术的 ThinkBook 13x,以及高性能人工智能笔记本电脑。

与我们一起了解人工智能的最新趋势!

2024 年伊始,人工智能取得了突破性进展,许多重大技术里程碑也随之诞生。但这仅仅是人工智能的开始。如果您想了解更多有关人工智能最新发展的信息,Ultralytics 将为您提供帮助。

查看我们的GitHub 存储库,了解我们在计算机视觉和人工智能方面的最新贡献。您还可以查看我们的解决方案页面,了解人工智能在制造业 医疗保健等行业的应用情况。 

让我们共同打造人工智能的未来

开始您的未来机器学习之旅

免费开始
链接复制到剪贴板